Роздрукувати сторінку
Главная \ Методичні вказівки \ Методичні вказівки \ 924 Глава 10. Пошук інформації в інтернет. Засоби інтелектуалізації пошуку інформації з дисципліни Сучасні інформаційні системи і технології, КСУ, Київський славістичний університет

Глава 10. Пошук інформації в інтернет. Засоби інтелектуалізації пошуку інформації з дисципліни Сучасні інформаційні системи і технології, КСУ, Київський славістичний університет

« Назад

ГЛАВА 10. Пошук інформації в Інтернет. Засоби інтелектуалізації пошуку інформації

За останні роки Інтернет перетворився в один з основних засобів публікації інформації. Всесвітня павутина Інтернет розповсюджується стрімкими темпами та вплітається буквально в усі сфери життя. Вважається, що кожні 6-12 місяців розмір Інтернет подвоюється.  Порівняно з БД, що використовуються у традиційних системах здобуття інформації, Web набагато різноманітніше як за вмістом, так і за структурою. Це розподілене середовище, що динамічно змінюється, а подані у ньому інформаційні ресурси вкрай різнорідні. Засобам обробки даних в мережі все складніше та складніше справлятись з масами інформації, вже існуючої і що додається в мережу щодня. Крім того, дані в Інтернет організовані вкрай стихійно і не систематично. Окрім серверів, що підтримуються компаніями, фірмами, університетами і іншими офіційними організаціями, на яких, в основному, представлена тематична інформація що більш-менш структурована, Web "населяють" домашні сторінки, що з'єднають в собі все, що завгодно.Ефективний пошук інформації в Інтернет у міру збільшення обсягу і розосередження джерел стає усе складнішим. При цьому критичним є не стільки час пошуку, скільки добір релевантної інформації. Це призводить до необхідності розробки нових технологій інформаційного пошуку.

За даними дослідження, проведеного фахівцями Міжнародної фінансової корпорації (МФК) у березні 2003 р., більш 80% українських компаній, де є хоча б один комп'ютер, вважають Інтернет корисним джерелом отримання бізнес-інформації. При цьому 56% компаній, підключених до Інтернет, користаються ними щодня, а 31% - кілька разів на тиждень.

Пошук потрібної інформації в Інтернет - суттєва проблема в зв'язку з:

  • величезним обсягом потенційно доступної інформації

  • розмаїтістю форматів представлення інформації

  • невідповідністю між виразною можливістю і доступністю засобів подання запитів

Процес інформаційного пошуку являє собою зіставлення інформаційного запиту користувача з інформаційними ресурсами, що доступні системі, яка здійснює пошук. Ефективне виконання пошуку залежить як від засобів подання запиту, так  і від засобів подання знань про інформаційні ресурси, а також від способів їхнього співставлення.

Основні критерії оцінки ефективності інформаційно-пошукових систем (ІПС) - це швидкість, точність і повнота відповідей. Точність визначається тим, яка частина інформації, що надається у відповідь на запит, є релевантною, тобто стосується цього запиту. Повнота характеризується співвідношенням між усією релевантною інформацією, що є в базі, і тією її частиною, що включена у відповідь. Крім цього, при оцінці пошукових систем  враховується, з якими типами даних може працювати та або інша система, у якій формі представляються результати пошуку і який рівень підготовки користувачів необхідний для роботи в цій системі.

Найбільше розвинені можливості пошуку надають сьогодні системи пошуку за ключовими словами.  Сучасні механізми пошуку в Web аналогічні за своєю дією традиційним системам здобуття інформації. Вони поділяються на дві групи - пошукові машини та каталоги.

Пошукові машини звичайно містять три компоненти:

  • програму індексації інформаційних ресурсів (робота), що автоматично переглядає різні сайти й індексує їх,

  • базу даних (індекс),

  • програму сканування, що дозволяє за запитом знайти відповідні інформаційні ресурси.

При цьому кожна пошукова система намагається самостійно проіндексувати всю мережу. Чим більше вузлів покриває пошукова машина, тим вище частка помилкових посилань, що у деяких випадках може досягати навіть 10%. Деякі пошукові служби відносяться до повнотекстових - вони шукають ключові слова не тільки в заголовку (і в метатегах), але й у тілі сторінки.  Інші обмежуються пошуком тільки в заголовках і метатегах.  Те ж саме відноситься і до глибини дослідження вузлів: одні обробляють тільки заголовну сторінку, інші - усі посилання до певного рівня, треті - Web-вузол цілком.  Крім того, деякі служби мають  спеціалізацію (явну або неявну) і приділяють більше уваги вузлам, присвяченим певної темі. До пошукових машин відносяться AltaVista, HotBot, Яndex і Rambler.

У каталогах  замість індексів обробляються описи ресурсів, що створюються не автоматично, а людьми-експертами.  Нові вузли вивчаються експертами  і відносяться ними до відповідних тематичних категорій.  Багато каталогів також забезпечують пошук у своїй базі даних.  Перевагою каталогів є більш висока якість опису інформаційних ресурсів, а недоліками – менша кількість доступних інформаційних ресурсів і неможливість автоматичного відновлення інформації про них. Найбільше відомими прикладами подібних каталогів є Yahoo!  і російськомовний “Ау!  “.

Зараз широко розповсюджені як локальні пошукові машини і каталоги, що забезпечують пошук у рамках одного сайту, так і глобальні, що забезпечують пошук у всьому Web.

Суттєвим недоліком таких систем є низька точність інформації, що видається. Машини пошуку та здобуття інформації, такі як "Yahoo!", "Lycos", "Infoseek", використовують механізм пошуку по ключовим словам і не враховують контекст, в якому існує інформація. Ось чому результатом роботи таких систем можуть бути сотні тисяч посилань. Сучасні версії пошукових систем ("Metacrawler", "WebSeek" і. т.п.) адресують запит користувача відразу до багатьох машин пошуку, і складають індексні мета-каталоги і бази даних. Але вони залишаються в рамках пошуку, основаного на ключових словах, то отримані індекси зв'язують інформацію з термінами, враховуючи тільки актуальний для даного запиту лексичний або синтаксичний контекст. Аналогічні претензії можна адресувати і до тематичних каталогів, що складені вручну. Крім того, що для їхнього створення і супроводу необхідно занадто багато часу, існує дисонанс між критеріями класифікації понять автора і користувачів.

 Розвиток можливостей цих систем, спрямований на підвищення точності інформації, призводить до ускладнення мови запитів цих систем.  Крім того, у кожній із систем є свій синтаксис мови запитів.  Тому більшість користувачів просто ігнорують розвинені можливості систем пошуку і використовують тільки базові можливості, що призводять до низької якості результатів пошуку). 

Це призводить до того, що користувач змушений самостійно опрацьовувати (прочитувати й відсортовувати) велику кількість документів (причому більша частина яких йому не потрібна).  Для постійної роботи користувача (як в Інтернет, так і на окремому комп'ютері або в локальній мережі) характерна довгострокова зацікавленість користувача в інформації з однієї або декількох вузьким областей.  Тому доцільно надати користувачу персонального інформаційного агента, що, з одного боку, дозволило б автоматизувати задачу збору і накопичення тематичної інформації, з огляду на як специфіку цих областей (і формуючи відповідні бази знань), так і преваги конкретного користувача, а з іншого - підвищило б релевантність пошуку інформації в цих областях.

Механізми пошуку в Web, як правило, розглядають запити на пошук ізольовано один від одного. Результати, отримані у відповідь на даний запит, не залежать від користувача або контексту, у якому користувач створював запит. Часто вони пропонують застарілу інформацію, індексують лише частину доступної в Web інформації, не індексують документи, для доступу до яких необхідна аутентифікація, і тому багато документів залишаються за рамками пошуку. Крім того, різні сайти індексуються неоднаково.

Нові технології інформаційного пошуку враховують реакцію користувача на результати, отримані ними під час попередніх звертань до механізму пошуку, передбачають обробку запитів природною мовою, явне або автоматизоване додавання контекстної інформації тощо. Однак очевидно, що універсального рішення, однаково зручного для всіх категорій користувачів, просто не існує.

Запит користувача являє собою опис того інформаційного ресурсу, доступ до якого хоче отримати користувач. Він може містити ключові слова, пов'язані логічними операторами;  документ-зразок;  тип документа (текстовий документ, зображення, відеоролик тощо); тему документа за класифікатором;  списки рекомендованих або заборонених інформаційних джерел; обмеження часу або обсягу пошуку;  параметри документа - обсяг, час створення, мова, автори, інші специфічні параметри даного типу документа,  тип запиту - постійний або одноразовий.

Традиційні підходи до організації пошуку інформації можна розділити на три групи: методи індексного пошуку, статистичні методи і методи, засновані на базах знань.

Індексний пошук застосовується головним чином для роботи зі структурованими базами даних. У таких методах слова інтерпретуються як послідовності  закодованих символів. Використовуючи формальний синтаксис мови запитів, система вибирає точну відповідність для окремих слів або словосполучень, що пов'язані логічними операторами. Застосування штучної мови запитів призводить до необхідності навчання користувачів. Такі системи не враховують різні форми і значення слів; користувачу непросто угадати точні слова і фрази, що були використані авторами в документах. Крім того, вони не можуть також впорядковувати документи за ступенем відповідності запиту, тому користувач змушений читати кожен документ, щоб визначити, наскільки він відповідає запиту.

Статистичні методи ґрунтуються на розрахунку різних частотних характеристик: частоти входження слова в документ, зваженої частоти входження і частоти спільного входження кількох слів. При цьому передбачається, що чим частіше зустрічається те або інше слово запиту в документі, тим у більшому ступені даний документ відповідає наданому запиту. Основною одиницею інформації, якою оперують статистичні  методи, є окреме слово, однак зв'язки між словами розглядаються винятково з математичної, а не з лінгвістичної точки зору. На відміну від методів бінарного пошуку, статистичні методи не вимагають застосування формальної мови запитів. Вони дозволяють проводити ранжирування документів за ступенем відповідності запиту, що істотно підвищує ефективність роботи з пошуковими системами. Однак такі методи не завжди дозволяють одержати бажані точність і повноту відповідей, оскільки важливість того або іншого терміна не завжди безпосередньо зв'язана з частотою його використання в документі.

Системи, що базуються на базі знань, використовують для пошуку інформації певні зовнішні знання (метазнання). Вони використовують концептуальні відносини, що не застосовуються при статистичному пошуку.

Одним з досить розповсюджених способів  подання знань є використання синонімів, що дозволяє при відповіді на запит враховувати не  тільки ті  терміни, що безпосередньо зазначені в запиті, але і інші слова, близькі до них за значеннями. Інший підхід до систем, заснованим на базі знань, використовує ієрархію термінів і понять, яка створюється  самими користувачами. Третій підхід базується на лінгвістичних правилах. Розроблювач створює систему лінгвістичних правил, що використовуються для аналізу або граматичного розбору текстової бази . Цей метод аналізу  визначає ключові слова і поняття, що поєднуються в БЗ, яка відображає зміст конкретної бази даних. Потім база  знань використовується для пошуку і ранжирування груп документів. Процес граматичного розбору і створення бази знань має проводитися для кожної ПрО. І нарешті, ще один підхід - використання  посилань на інші документи, у тому числі на звичайні словників і словники термінів. Значення слів, найбільш придатні для даного пошуку, можуть бути обрані самим користувачем  з метою підвищення точності цього пошуку. Цей підхід поєднує статистичний пошук  і пошук на основі бази знань. При цьому використовуються зміст слів для визначення і класифікації відносин, які статистичний пошук не відслідковує.

Переважна більшість ІПС, які широко використовуються, є не спеціалізованими, а універсальними. Звичайно вони не враховують інформацію про конкретного користувача, його специфічні інформаційні інтереси, передісторію його звертань з запитами до цієї ІПС. Спеціалізовані ж ІПС мають досить обмежену інформаційну базу і, хоч і дають звичайно високо релевантні результати пошуку у певній ПрО, не можуть гарантувати виявлення усіх (або хоча б значної частини) навіть тих інформаційних джерел, що відносяться до області їхньої спеціалізації і можуть бути виявлені універсальними ІПС (правда, серед великої кількості слабко релевантних посилань).

Індексування за ключовими словами - це найбільш проста й економічна у відношенні дискового простору технологія. Суть її полягає в тім, що для кожного документа, що індексується, заповнюються відповідні поля в індексному файлі. Заповнення здійснюється вручну або автоматизовано. Ця  технологія дозволяє індексувати як текстові документи (у ручному й автоматичному  режимах), так і зображення (у ручному режимі). У найпростішому випадку ключовими словами служать назва та ім'я автора документа. У більш складних ситуаціях необхідно використовувати незалежного експерта для читання документа і виділення ключових слів.

Серйозні обмеження при використанні цих систем пов'язані з наступними обставинами:

  • Визначення ключових слів - досить суб'єктивний процес; навіть при участі незалежного експерта важко уникнути однобічності у виборі ключових слів.

  • Визначення ключових слів - досить дорога процедура через неможливість автоматичної індексації і низкою продуктивності при визначенні ключових слів вручну.

  • Передбачається, що користувачі будуть здійснювати пошук інформації передбачуваним способом, використовуючи визначені ключові слова.

  • Пошук за ключовими словами - це чіткий пошук, тобто користувач має точно знати, що саме він шукає. Якщо зроблена помилка у написанні ключового слова в запиті для пошуку, система ніколи не знайде потрібну інформацію.

  • Ключові слова можуть мінятися з часом (поняття, що були "ключовими" учора, зовсім не обов'язково будуть настільки ж важливі через рік).

Визначення контексту пошукових запитів

Підвищити ефективність пошуку дозволяє його персоніфікація, тобто використання відомостей про попередні запити конкретного користувача і сфері його інформаційних інтересів.

Традиційні механізми пошуку в Інтернет, як правило, розглядають інформаційні  запити користувача ізольовано один від одного і не враховують отримані раніше результати. Враховуючи інформацію про користувача, про Про, яка  його цікавить, і про виконані раніше запити цього користувача, можна одержувати більш релевантні результати і підвищити ефективність пошуку. На сьогоднішній день існує кілька різних підходів до формалізованого завдання таких зведень.

Наприклад, у проекті Inquirus контекстна інформація задається явно у вигляді категорії даних, яку запитує користувач. Контекстна інформація використовується для вибору тих механізмів пошуку, яким передається запит, для модифікації запитів і для визначення принципів упорядкування отриманих документів.

Деякі засоби дозволяють визначити контекст пошуку  автоматично.  Наприклад, система Watson моделює контекст на основі вмісту документів, що користувач раніше редагував засобами Microsoft Word або переглядав у Internet Explorer. Ці документи аналізуються за допомогою алгоритму, що виявляє слова, характерні для документів. Потім ці слова автоматично додаються до запиту. Крім того, Watson  у фоновому режимі  шукає в Web документи, зв'язані з матеріалами, що редагує або переглядає користувач. Недоліком системи є непрозорість алгоритмів, використовуваних системою, для кінцевого користувача.

Аналогічно працює Remembrance Agent, що індексує файли (повідомлення електронної пошти, наукові статті і т.п.), з якими працює користувач, і веде пошук документів, зв'язаних з ними.  Autonomy’s Kenjin автоматично аналізує файли, які користувач чи переглядає редагує. До аналогічних рішень можна віднести агентів Fab, Letizia і WebWatcher, що вивчають область інтересів користувача для того, щоб запропонувати йому відповідні Web-сторінки.

Інший підхід до персоніфікації пошуку базується на використанні онтологій для формалізованого опису області інформаційних інтересів певного користувача. Користувач може обрати одну з існуючих онтологій або створити власну. У процесі виконання пошукового запиту будуть використовуватися терміни з цієї онтології.

Ще один перспективний засіб інтелектуалізації інформаційного пошуку базується на індуктивнім узагальненні історії виконання інших запитів конкретного користувача з метою здобуття знань про його інформаційні інтереси, які містяться у цих відомостях неявним чином (приміром, користувач завжди відкидає інформаційні ресурси певної категорії або певного обсягу, цікавиться інформацією лише певною мовою, проте не вказує це у своїх запитах).

Забезпечити ефективне використання ресурсів мережі, часу, що витрачає користувач, та підвищити якість здійснюваного пошуку потрібних знань, дозволяє використання інформаційно-пошукових агентів та мультиагентних інформаційно-пошукових систем.

Інформаційно-пошукові агенти

Інформаційно-пошуковий агент (ІПА) - це агент, мета функціонування якого полягає в ефективній взаємодії користувача з інформаційним середовищем і перетворенні цього середовища в персоналізовані знання для конкретних користувачів.

Кожний ІПА має доступ принаймні до одного, а потенційно - до багатьох інформаційних джерел, він здатний маніпулювати інформацією, яку отримує з цих джерел, для того, щоб відповідати на запити, надані користувачем або іншими агентами.

Використання ІПА забезпечує користувачеві значні переваги порівняно з використанням традиційних засобів пошуку інформації - пошуковими машинами:

  • ІПА не просто передає користувачу результати пошуку, а попередньо переглядає документи і вибирає з них найбільш релевантні, враховуючи специфіку ПрО, яка цікавить користувача.

  • ІПА може настроюватися на уподобання користувача.

  • ІПА може виконувати постійні інформаційні запити користувача автономно (приміром, за розкладом) без явних указівок користувача.

  • ІПА може самостійно корегувати свою поведінку на основі власного досвіду.

  • ІПА може співпрацювати з іншими агентами, що мають доступ до потрібної йому інформації.

  • ІПА може використовувати різноманітні інтелектуальні засоби для підвищення ефективності пошуку інформації - словники, тезауруси та онтології тощо та застосовувати методи дедуктивного, індуктивного та традуктивного виведення.

Мультиагентні інформаційно-пошукові системи

Через досить високу складність проблеми інформаційного пошуку у відкритому динамічному гетерогенному середовищі у багатьох випадках доцільно замість єдиного універсального агента використовувати мультиагентні системи.

Процес інформаційного пошуку полягає у взаємодії між користувачами та постачальниками інформації: у відповідь на інформаційний запит користувача постачальник інформації надсилає йому певні відомості, релевантні цьому запиту (слід зауважити, що в різних ситуаціях одні й ті ж самі об’єкти можуть виступати і як постачальники інформації, і як її користувачі). Проте встановлення безпосередньої взаємодії всіх потенційних користувачів з усіма потенційними постачальниками призводить до ряду проблем, пов’язаних з різноманіттям засобів подання інформаційних запитів та відповідей на них. У загальному випадку для m користувачів інформації та n її постачальників потрібно мати  засобів перетворення подання інформації. Крім того, з появою нового постачальника треба поновлювати такі засоби для всіх користувачів.

Для ефективного обміну інформацією між споживачами інформації та її постачальниками необхідні посередники, які спрощують взаємодію між постачальниками й користувачами інформації. Основна перевага моделі пошуку інформації, що складається з трьох рівнів - рівня користувачів (тих, хто шукає інформацію), рівня постачальників (тих, хто надає інформацію) і проміжного рівня, який забезпечує зв'язок між першим і другим рівнями - полягає у відсутності прямих зв’язків між користувачами та постачальниками інформації, що значно спрощує взаємодію між агентами, створеними різними розробниками (див.рис.10.2).

На всіх цих рівнях доцільно використовувати агентів:

Для рівня користувачів задача агентів полягає в тому, щоб точно визначити, що саме шукає користувач, чи є в нього які-небудь переваги відносно цієї інформації, яка інформація в нього вже є, які документи не задовольняють його інформаційні потреби, в який час та за яким розкладом краще здійснювати пошук, в якій формі подати результати пошуку користувачеві тощо.

Для рівня постачальників задача агентів - перетворення певного стандартизованого подання інформаційних запитів користувачів у форму, зрозумілу відповідному інформаційному ресурсу (приміром, у формат подання запиту до пошукової машини сайту – з відповідними символами для позначення логічних операцій та визначеними параметрами документа, який треба знайти), упорядкування інформації, яку надає цей постачальник, і відновлення її в разі змін.

Для рівня посередників агенти потрібні для виконання сервісних функцій, що забезпечують ефективну взаємодію між агентами користувачів і постачальників інформації – перетворення інформаційних запитів та відповідей на них у певну стандартизовану форму, збереження пошукового досвіду, а також відомостей про користувачів та постачальників у відповідних БД.

У мультиагентній інформаційно-пошуковій системі використовуються:

  • агенти користувачів;

  • агенти інформаційних ресурсів;

  • агенти проміжного рівня, які забезпечують взаємодію агентів інформаційних ресурсів і агентів користувачів.

Як приклади мультиагентних інформаційно-пошукових систем можна навести Autonomy, Webcompass, Marri, OntoSeek.

Висновки

Ефективне використання інформаційних ресурсів Інтернет - складна проблема через його динамічність, гетерогеннність та великий обсяг. Наявність засобів інтелектуалізації інформаційного пошуку забезпечує користувачам задоволення іх інформаційних потреб.

Список літератури

1. Dublin Core Metadata Elements. - http://www.faqs.org/rfcs/rfc2413.html

2. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. - Спб.: Питер, 2001.

3. Плескач В.Л., Рогушина Ю.В., Кустова Н.П. Інформаційні технології та системи. - К.: "Книга", 2004.

4. Экономическая информатика. Учебник. - Под редакцией П.В.Конюховского и Д.Н.Колесова. - СПб.: Питер, 2000.

Контрольні питання

1. Які фактори ускладнюють пошук інформації в Інтернет?

2. За якими критеріями оцінюють ефективність інформаційно-пошукових систем?

3. На які групи поділяються інформаційно-пошукові системи?

4. Що таке персоніфікація інформаційного пошуку?

5. Що таке інформаційно-пошуковий агент?

6. Які переваги надає використання інформаційно-пошуковихй агентів порівняно з використанням традиційних засобів пошуку інформації?

7. Для чого потрібні мультиагентні інформаційно-пошукові системи?

З повагою ІЦ “KURSOVIKS”!