Роздрукувати сторінку
Главная \ Методичні вказівки \ Методичні вказівки \ 383 Методичні рекомендації до лабораторних робіт на тему Аналіз пошукових систем Internet, НУДПСУ

Методичні рекомендації до лабораторних робіт на тему Аналіз пошукових систем Internet, НУДПСУ

« Назад

Лабораторна робота

Тема: Аналіз пошукових систем Internet

Ціль роботи: Отримати  навички роботи з різними пошуковими системами Internet, призначеними для знаходження повнотекстових інфорпмаційних ресурсів.

Завдання:

  1. Ознайомитися з теоретичним матеріалом. На його основі сформувати словник основних термінів, що використовуються для опису пошукових систем, та параметрів, за якими можна порівнювати якість їх функціонування.

  2. За допомогою ІПС здійснити в Інтернет пошук більш детальних відомостей на цю тему. Зберегти знайдені документи в своєму робочому каталозі.

  3. Провести порівняльний аналіз кількох ІПС. До складу систем, що порівнюються, потрібно включити як каталоги, так і пошукові машини. Для цього потрібно завантажити відповідні сторінки до Internet Explorer.

  4. На першому кроці аналізу слід скласти описи: А. синтаксис пошукових мов, які використовуються для створення складного пошукового запиту, Б. Які параметри шуканого документу може задавати користувач (приміром, мову, формат подання, розмір, дату створення тощо), В. інших можливостей цих систем (приміром, можливість враховувати відстань між совами у тексті, наявність або відсутність врахування словоформ різних мов), Г. зручність користувацького інтерфейсу та наявність довідкової інформації. Порівняти 3-4 різні ІПС (інформацію про це включити в звіт, оформивши у вигляді таблиці).

  5. На другому кроці аналізу розглянути, у якій формі подається  користувачу інформація про результати виконання запитів у різних пошукових системах. Для цього потрібно вивчити компоненти списку посилань, який за запитом користувача формують ІПС (дата, розмір, формат, анотація і т.п.), що формує ці системи у відповідь на запит, принципи впорядкування посилань, та порівняти їх (інформацію про це теж включити в звіт, оформивши у вигляді таблиці).

  6. Порівняти користувацький інтерфейс різних ІПС за наступними параметрами: зручність, зрозумілість, відповідність дизайну, мови, що використовуються).

  7. Порівняти відомості про історію створення, призначення та можливості ІПС, що наведена їх розробниками. Порівняти її з аналогічними даними, що отримані шляхом пошуку в інших ІПС.

  8. Провести експериментальне дослідження якості функціонування різних ІПС за такими параметрами, як повнота пошуку, релевантність пошуку та час роботи. Для цього задавати одинакові пошукові запити у галузях різного ступеню спеціалізованості, різними мовами (українська, англійська, російська), різної довжини (від 1 слова до 5-6) та різної логічної складності, а також пов’язані та не пов’язані з комерціалізацією Інтернет. Результати зберегти у таблицю.

  9. Проаналізувати ці відомості, визначити, для яких запитів які з проаналізованих ІПС є більш придатними, результати оформити у вигляді звіту.

У створенні запитів рекомендується звертатися до наступних областей:

  • з області широко розповсюджених інформаційних потреб (наприклад, прогноз погоди в Києві на вихідні, телепрограма, новини, навчальна література з якоїсь поширеної дисципліни);

  • з області інформаційних технологій: технічні характеристики якогось апаратного пристрою ( принтера, сканера, процесора тощо), умови його придбання; функціональні можливості та умови використання якогось програмного забезпечення);

  • з області е-комерції - зв'язані з ціною та умовами придбання якогось товару;

  • з області якоїсь вузької наукової дисципліни або сфери спеціалізації (приміром, темпоральні логіки або технологія виготовлення цегли);

  • з області, в якій можливо використовувати власні назви та імена (приміром, знайти відомості про конкретний фільм, скульптуру, архітектурний пам’ятник);

  • з області загальних знань, але дуже конкретизований (наприклад, вага білого ведмедя, населення Києва);

  • з області дуже специфічних інтересів (вирощування крокодилів у домашніх умовах, колекціювання фарфорових собачок і т.п.);

  • для того, щоб оцінити  повноту пошуку у різних ІПС, обрати в якості ключового слова якесь дуже специфічне (наприклад, не дуже поширене прізвище або ім’я).

Для кожної тематики створити 3-4 типи запитів (кожний тип складається з кількох більш або менш докладних запитів) та усі їх виконати для кожної з ІПС, аналіз яких здійснюється, на трьох різних мовах.

  1. Для тих ІПС, що здійснюють пошук мультимедійних даних, повторити усі ці запити для пошуку різних форм мультимедіа.

  2. Сформулювати запити до усіх ІПС, використовуючи в якості ключового слова назви інших ІПС.

  3. Здійснити в Інтернет пошук за допомогою ІПС наукових та практичних досліджень якості роботи пошукових систем, порівняти цю інформацію з результатами власних досліджень. Огляд знайдених джерел включити до звіту.

  4. Порівняти результати пошуку для різних областей, надані розглянутими пошуковими системами, по таких параметрах, як час пошуку, повнота і релевантність відповіді. Занести виводи в звіт.

  5. Дати письмові відповіді на контрольні питання. У разі необхідності скористатися для довідок інформаційними ресурсами Інтернет.

Теоретичні відомості

За останні десятиліття суспільство, в який ми живемо перетворилося з індустріального в інформаційне. Розосередження джерел інформації - це не тільки можливість одержувати практично будь-яку необхідну інформацію, але і серйозні проблеми, пов'язані з пошуком і класифікацією необхідних інформаційних ресурсів. Таке положення  унеможливлює ефективне використання нових інформаційних середовищ і зокрема Internet без застосування розвинутих пошукових механізмів - інформаційних пошукових систем (ІПС).

ІПС - це набір методів і засобів, призначених для здійснення інформаційного пошуку. Основне завдання ІПС - у пошуку і виборі з усіх доступних системі інформаційних ресурсів саме релевантної інформації, т.е тієї, котра найбільше відповідає інформаційним потребам, сформульованим у запиті.

Інформаційний пошук - це сукупність операцій, необхідних для перебування інформації, що відповідає запиту користувача.

Запит користувача являє собою опис інформації, доступ до якої він хоче одержати. Такий запит може, наприклад, містити ключові слова, пов'язані логічними операторами;  документ-зразок;  тип документа і його тему за класифікатором;  списки рекомендованих чи заборонених користувачем інформаційних джерел; обмеження на час або обсяг пошуку;  розмір, час створення та мова шуканого документа. Чим складніше форма подання запиту, тим вище релевантність пошуку (релевантність пошуку – це співвідношення між кількістю знайдених документів, що задовольнили користувача, тобто відповідали його запиту, і загальною кількістю знайдених у результаті пошуку документів). Але ускладнення форми запиту приводить до ускладнення процедури його обробки, і, отже, до збільшення часу пошуку.

Незважаючи на те, що в даний час існує велике різноманіття інформаційних ресурсів - зображення, відео, звук, сучасні пошукові засоби орієнтовані в основній масі тільки на текстову інформацію.

При елементарному пошуку формується найпростіший запит, що складається з одного ключового чи слова фрази з 2-3 слів без використання логічних операторів, застосовуваних у розширеному типі інформаційно-пошукового запиту. По статистиці, користувачі закордонних пошукових систем використовують у середньому 1,5 слова в запиті. Наші користувачі більш "багатослівні" - 2,5 слова на один запит.

При розширеному пошуку формується складний запит з використанням кількох ключових слів або виразів, зв'язаних логічними операторами.

Мережні ресурси можна умовно розділити на наступні типи:

1) довідково-інформаційні:

- засоби навігації – пошукові системи, каталоги, покажчики ресурсів;

- бази і банки даних – фактографічні (наприклад, адресні) і документальні (бібліографічні, реферативні, повнотекстові), графічні БД, експертні системи;

- електронні публікації – книги і журнали, що як існують тільки в комп'ютерному виді, так і друковані аналоги, що мають;

- онлайнові довідкові видання – загальні і спеціалізовані енциклопедії, словники і довідники, у тому числі і гіпермедійні;

2) комунікаційні:

- електронна пошта, списки тематичного розсилання,

- інтерактивні телеконференції – "чаты", аудіо- і відеоконференції;

3) дослідницькі:

- архіви даних наукових досліджень, статистичні дані;

- електронні публікації проектів, робочих матеріалів і наукових звітів;

- програмне забезпечення;

4) освітні:

- навчальні плани, конспекти курсів;

- системи дистанційного навчання;

5) організаційні.

Інтерактивні пошукові служби Інтернет умовно можна розділити на пошукові машини і каталоги (директорії, рубрикатори). Вони розрізняються і по кількісним (охоплення, глибина пошуку), і по якісним (можливість використання формальних логічних запитів, фільтрація результату) характеристикам.

Каталоги вирішують проблему відсутності в користувача інформації про шуканий об'єкт., подібні “Ау” (www.au.ru), “Russia on Net” (www.ru) чи “Yahoo!” (www.yahoo.com). Нові вузли вивчаються експертами  і вручну відносяться ними до відповідного тематичним категоріям. Такі каталоги дозволяють користувачу, вибираючи підрозділи, поступово уточнювати свій запит, тим самим роблячи пошук більш ефективним. Багато каталогів також забезпечують пошук у своїй базі даних Однак цей клас пошукових механізмів має серйозний недолік – вони вимагають великого числа фахівців для класифікації ресурсів. Незважаючи на це, каталоги не завжди здатні надати користувачу велика кількість підрозділів через менший, у порівнянні з ростом інформаційних ресурсів, швидкістю заповнення каталогу.

Більш розповсюдженим засобом для здобуття інформації в Інтернет є машини пошуку (наприклад, AltaVista, HotBot, Яndex і Rambler). Вони звичайно складаються з трьох компонентів:

  • агент, що переміщається по мережі і збирає інформацію (їхній часто називають також спайдер, павук, бот, кроулер);

  • база даних, що містить всю інформацію, що збирається павуками;

  • пошуковий механізм, що люди використовують як інтерфейс для взаємодії з базою даних.

Сучасні пошукові системи будуються на основі спеціалізованої бази даних – індексу. В індексі зберігається інформація, на основі якої пошукова система видає відповіді на запити користувачів - мережна адреса документа й інформація про його вміст - наприклад, список слів, використовуваних у документі, і частота їхнього використання. Індекс створюється агентами, безупинно сканирующими інформаційний простір. Перші пошукові машини, що автоматично обходять Web-сервери, з'явилися в 1994 році. При цьому в більшості випадків список слів містить тільки семантично значимі  слова і не містить так називані стоп-слова - числівники, займенники і т.п., що ігноруються пошуковими системами при запиті і пошук по них неможливий. Стоп-слова настільки часто зустрічаються в документах, що шукати по них дуже важко.

Деякі пошукові служби обмежуються пошуком ключових слів тільки в заголовках документів, інші  шукають і в тексті. Одні обробляють тільки головну сторінку, інші - усі посилання до визначеного рівня, треті - Web-вузол цілком.

Сьогодні бази даних ведучих пошукових машин зберігають відомості про десятки мільйонів документів. При пошуку інформації можливо застосовувати як прості запити (задавати шукані ключові слова), так і складні запити, що містять логічні вирази, символи підстановки і додаткові умови, що звужують область пошуку або впливають на ранжирування результатів (сортування знайдених документів). У режимі пошуку система знаходить серед проіндексованих раніше документів ті, які найбільш релевантні запиту користувача.

Результат пошуку - перелік знайдених документів, для кожного з яких, як правило, видається його назва, URL, розмір, дата створення і фрагмент тексту, що дозволяє судити про зміст сторінки (форма видачі результатів варіюється в різних системах і часто може вибиратися користувачем).

Варто мати на увазі, що нерідко документ, на який указує пошукова система, уже не існує, тобто посилання застаріло.

Звичайно пошукова система являє собою комплекс із декількох комп'ютерів, кожний з який виконує свою частину роботи. Наприклад, «Апорт-2000» працює на 12 комп'ютерах, Яndex — на 6, а Rambler — на 3.

У сучасних умовах уже недостатньо просто опублікувати інформацію в мережі, важливо зробити так, щоб неї знаходили. Власники ресурсів використовують пошукові системи для «цілеспрямованої» видачі інформації саме тим, хто неї шукає. Основна задача реєстрації якого-небудь ресурсу в пошукових системах — зробити так, щоб його знаходили тільки ті користувачі, що у ньому бідують.

Важливо знати, як система обчислює релевантність документа, тобто ранжує його при видачі результатів. У більшості західних пошукових систем і в деяких російських немає явного опису алгоритму ранжирування. Найчастіше основним параметром є відсоток слів із запиту, що присутні в документі. Часто використовуються також кількість слів запиту в текстовому вмісті документа (тобто в html-коді), відносна частота появи ключових слів у документі - питома вага слів, щодо яких визначається релевантність, у загальній кількості слів документа, близькість їхнього розташування, наявність ключових слів у заголовку документа, місце розташування шуканих слів у документі. Наприклад, «Апорт» з більш високим пріоритетом враховує слова в заголовках. Аналогічним образом враховуються тексти усередині посилань, виділення більш великим чи шрифтом іншим кольором. Rambler при ранжируванні документів використовує вісьмох рівнів важливості інформації, що міститься в них.

AltaVista враховує ще і такі параметри , як час і індекс цитованості.

Час - як довго сторінка знаходиться в базі пошукового сервера. Може показатися, що це досить безглуздий принцип. Але в Інтернет існує багато сайтів, що живуть максимум місяць. Якщо ж сайт існує досить довго, це означає, що власник досить досвідчений, а подан на ньому інформація з більшою імовірністю коректна і, отже, принесе  користувачу більше користі.

Індекс цитованості - як багато посилань на дану сторінку веде з інших сторінок, зареєстрованих у базі даних розвідувача. Можна припустити, що більш часто цитують сторінки, які містять інформацію, визнану корисної більш широким колом фахівців.

Різні пошукові механізми також вибирають різні способи показу отриманого списку - деякі показують тільки посилання; інші виводять посилання c першими декількома пропозиціями, що містяться в чи документі заголовок документа разом з посиланням. Потім по посиланню до кожного з документів можна викликати цей документ із того сервера, на якому він знаходиться.

AltaVista - один з найбільших і найшвидших пошукових серверів Результати пошуку представляються у виді списку коротких чи розгорнутих анотованих описів ресурсів. Можна шукати документи визначеною мовою, у тому числі і на росіянині.

БД AltaVista - найбільша ІПС в Internet. Реєстрація сайтів у ній відбувається протягом 48 ч, і якщо інші пошукові машини іноді відключаються на технічну перерву, відмовляються приймати чи адреси включають їх у базу даних з великим запізненням, то за AltaVista таких "гріхів" не помічалося.

Серед особливостей цієї пошукової системи можна вказати такі додаткові механізми, як Photo Finder -і інструмент пошуку зображень.

Однак результати пошуку не впорядковані і не організовані, так що часто велику кількість наданої інформації приводить до великої витрати часу.

Посилання, що знаходить AltaVista, високо релевантні (хоча і не завжди актуальними), а її здатність розпізнавати запити природною мовою є її великою перевагою.

Найбільш цікава можливість AltaVista - це розширений пошук. На відміну від багатьох інших систем AltaVista підтримує одномісний оператор NOT. Крім цього, мається ще й оператор NEAR, що реалізує можливість контекстного пошуку, коли терміни повинні розташовуватися поруч у тексті документа. Крім всього іншого, при пошуку в AltaVista можна задати ім'я полючи, де повинне зустрітися слово: гіпертекстове посилання, applet, назва образа, заголовок і ряд інших полів. Мова опису WWW-сторінки: англійський.

URL: http://www.altavista.com/

Yahoo! - найбільший онлайновий анотований каталог ресурсів глобальних мереж. Доступна інформація з посилань на різні сервіси Інтернет – від WWW-сторінок і серверів телеконференцій до FTP-серверів і архівів. Каталог улаштований за принципом багаторівневого ієрархічного предметного покажчика. Описи подано через повну назву Інтернет-ресурсу, а також коротку анотацію його змісту. Підтримується механізм повнотекстового пошуку по ключових словах і фразам на кожнім з рівнів з можливістю передачі запиту на пошукову систему AltaVista.

У Yahoo! ніколи не зареєструють сайт, що знаходиться в стадії розробки, сервери, чиї хазяїни намагаються заманити до себе клієнтів за допомогою рекламних закликів, зовсім далеких по змісту від щирого інформаційного наповнення сторінок.     

Відвідувачі сайту можуть одержати безкоштовно адресу електронної пошти, скористатися можливостями мережного пейджингу (Instant Messaging), взяти участь у on-line дискусіях (Chat) і, що особливо цінується клієнтами, створити індивідуальний портал (My Yahoo!).

Сайт має 14 локалізованих версій, де розташована інформація, що стосується тільки конкретного регіону, до приклада Yahoo! Germany чи Yahoo! Asia.  Коли Yahoo! не може знайти дані у своєї БД, вона уступає повнотекстовій базі даних AltaVista.

Мова опису WWW-сторінки: англійська.

URL: http://www.yahoo.com/

Rambler - найбільша російська пошукова система, дозволяє вести як повнотекстовий пошук посилань на Інтернет-ресурси, так і пошук по елементах мережної адреси (URL), заголовкам WWW-документів. Запит складається по повному ключовому чи слову його основі, фразам і словосполученням, з використанням логічних операторів з обмеженням вибірки по датах створення/відновлення WWW-сторінок. Мається тематичний каталог, у кожнім з розділів якого зазначені 100 найбільш відвідуваних сайтів.

Пошуковий сервер Rambler автоматично виключає з індексу стоп-слова, що зустрілися в більш ніж 800 тис. документів. Максимальний розмір документа для роботів Rambler складає 200 Кбайт. Більший розмір відтинається до зазначеної величини.

Мова опису WWW-сторінки: російська. 

URL: http://www.rambler.ru/

При виконанні лабораторної роботи можна використовувати такі відомі ІПС:

www.altavista.com    www.goto.com   www.dejanews.com

www.euroseek.com    infoseek.go.com  www.lycos.com

www.northernlight.com  ww.yahoo.com   www.searchking.com

www.google.com       www.rambler.ru  www.ru     www.meta.charkiv.com

www.aport.ru              www.au.ru          www.yandex.ru

або за допомогою якоїсь з них знайти їнші.

Приклад заповнення таблиці:

 

пошукова система

запит

час пошуку

кількість знайдених документів

Кількість  релевантних відповідей

1.

www.rambler.ru

 

“прогноз погоди на вівторок“

0.3 хв

95

8 з 15 переглянутих

Контрольні питання:

  1. Чим принципово відрізняється пошукова машина від пошукового каталогу?

  2. Дайте формальне визначення релевантності пошуку.

  3. Що таке стоп-слова? Наведіть приклади.

  4. В яких форматах подана інформація, яку можна знаходити за допомогою ІПС?

  5. Які відомості містяться в індексній базі даних ІПС?

  6. Що таке метапошукові системи?

  7. За якими принципами впорядковуються посилання, які ІПС надає користувачеві внаслідок виконання його запиту?

  8. Які проблеми найчастіше виникають у користувачів при звертанні до ІПС в Інтернет?

Контрольне завдання:

За допомогою інформаційно-пошукових систем (оберіть найбільш придатні за результатами експериментів) знайдіть в Інтернет документи, які характеризують принципи

1) формування метаописів інформаційних ресурсів Інтернет;

2) форматів подання та опису мультимедіа;

3) роботи метапошукових систем.

З повагою ІЦ "KURSOVIKS"!