Методичні рекомендації до лабораторних робіт на тему Аналіз пошукових систем Internet, НУДПСУ
« НазадЛабораторна роботаТема: Аналіз пошукових систем InternetЦіль роботи: Отримати навички роботи з різними пошуковими системами Internet, призначеними для знаходження повнотекстових інфорпмаційних ресурсів. Завдання:
У створенні запитів рекомендується звертатися до наступних областей:
Для кожної тематики створити 3-4 типи запитів (кожний тип складається з кількох більш або менш докладних запитів) та усі їх виконати для кожної з ІПС, аналіз яких здійснюється, на трьох різних мовах.
Теоретичні відомостіЗа останні десятиліття суспільство, в який ми живемо перетворилося з індустріального в інформаційне. Розосередження джерел інформації - це не тільки можливість одержувати практично будь-яку необхідну інформацію, але і серйозні проблеми, пов'язані з пошуком і класифікацією необхідних інформаційних ресурсів. Таке положення унеможливлює ефективне використання нових інформаційних середовищ і зокрема Internet без застосування розвинутих пошукових механізмів - інформаційних пошукових систем (ІПС). ІПС - це набір методів і засобів, призначених для здійснення інформаційного пошуку. Основне завдання ІПС - у пошуку і виборі з усіх доступних системі інформаційних ресурсів саме релевантної інформації, т.е тієї, котра найбільше відповідає інформаційним потребам, сформульованим у запиті. Інформаційний пошук - це сукупність операцій, необхідних для перебування інформації, що відповідає запиту користувача. Запит користувача являє собою опис інформації, доступ до якої він хоче одержати. Такий запит може, наприклад, містити ключові слова, пов'язані логічними операторами; документ-зразок; тип документа і його тему за класифікатором; списки рекомендованих чи заборонених користувачем інформаційних джерел; обмеження на час або обсяг пошуку; розмір, час створення та мова шуканого документа. Чим складніше форма подання запиту, тим вище релевантність пошуку (релевантність пошуку – це співвідношення між кількістю знайдених документів, що задовольнили користувача, тобто відповідали його запиту, і загальною кількістю знайдених у результаті пошуку документів). Але ускладнення форми запиту приводить до ускладнення процедури його обробки, і, отже, до збільшення часу пошуку. Незважаючи на те, що в даний час існує велике різноманіття інформаційних ресурсів - зображення, відео, звук, сучасні пошукові засоби орієнтовані в основній масі тільки на текстову інформацію. При елементарному пошуку формується найпростіший запит, що складається з одного ключового чи слова фрази з 2-3 слів без використання логічних операторів, застосовуваних у розширеному типі інформаційно-пошукового запиту. По статистиці, користувачі закордонних пошукових систем використовують у середньому 1,5 слова в запиті. Наші користувачі більш "багатослівні" - 2,5 слова на один запит. При розширеному пошуку формується складний запит з використанням кількох ключових слів або виразів, зв'язаних логічними операторами. Мережні ресурси можна умовно розділити на наступні типи: 1) довідково-інформаційні: - засоби навігації – пошукові системи, каталоги, покажчики ресурсів; - бази і банки даних – фактографічні (наприклад, адресні) і документальні (бібліографічні, реферативні, повнотекстові), графічні БД, експертні системи; - електронні публікації – книги і журнали, що як існують тільки в комп'ютерному виді, так і друковані аналоги, що мають; - онлайнові довідкові видання – загальні і спеціалізовані енциклопедії, словники і довідники, у тому числі і гіпермедійні; 2) комунікаційні: - електронна пошта, списки тематичного розсилання, - інтерактивні телеконференції – "чаты", аудіо- і відеоконференції; 3) дослідницькі: - архіви даних наукових досліджень, статистичні дані; - електронні публікації проектів, робочих матеріалів і наукових звітів; - програмне забезпечення; 4) освітні: - навчальні плани, конспекти курсів; - системи дистанційного навчання; 5) організаційні. Інтерактивні пошукові служби Інтернет умовно можна розділити на пошукові машини і каталоги (директорії, рубрикатори). Вони розрізняються і по кількісним (охоплення, глибина пошуку), і по якісним (можливість використання формальних логічних запитів, фільтрація результату) характеристикам. Каталоги вирішують проблему відсутності в користувача інформації про шуканий об'єкт., подібні “Ау” (www.au.ru), “Russia on Net” (www.ru) чи “Yahoo!” (www.yahoo.com). Нові вузли вивчаються експертами і вручну відносяться ними до відповідного тематичним категоріям. Такі каталоги дозволяють користувачу, вибираючи підрозділи, поступово уточнювати свій запит, тим самим роблячи пошук більш ефективним. Багато каталогів також забезпечують пошук у своїй базі даних Однак цей клас пошукових механізмів має серйозний недолік – вони вимагають великого числа фахівців для класифікації ресурсів. Незважаючи на це, каталоги не завжди здатні надати користувачу велика кількість підрозділів через менший, у порівнянні з ростом інформаційних ресурсів, швидкістю заповнення каталогу. Більш розповсюдженим засобом для здобуття інформації в Інтернет є машини пошуку (наприклад, AltaVista, HotBot, Яndex і Rambler). Вони звичайно складаються з трьох компонентів:
Сучасні пошукові системи будуються на основі спеціалізованої бази даних – індексу. В індексі зберігається інформація, на основі якої пошукова система видає відповіді на запити користувачів - мережна адреса документа й інформація про його вміст - наприклад, список слів, використовуваних у документі, і частота їхнього використання. Індекс створюється агентами, безупинно сканирующими інформаційний простір. Перші пошукові машини, що автоматично обходять Web-сервери, з'явилися в 1994 році. При цьому в більшості випадків список слів містить тільки семантично значимі слова і не містить так називані стоп-слова - числівники, займенники і т.п., що ігноруються пошуковими системами при запиті і пошук по них неможливий. Стоп-слова настільки часто зустрічаються в документах, що шукати по них дуже важко. Деякі пошукові служби обмежуються пошуком ключових слів тільки в заголовках документів, інші шукають і в тексті. Одні обробляють тільки головну сторінку, інші - усі посилання до визначеного рівня, треті - Web-вузол цілком. Сьогодні бази даних ведучих пошукових машин зберігають відомості про десятки мільйонів документів. При пошуку інформації можливо застосовувати як прості запити (задавати шукані ключові слова), так і складні запити, що містять логічні вирази, символи підстановки і додаткові умови, що звужують область пошуку або впливають на ранжирування результатів (сортування знайдених документів). У режимі пошуку система знаходить серед проіндексованих раніше документів ті, які найбільш релевантні запиту користувача. Результат пошуку - перелік знайдених документів, для кожного з яких, як правило, видається його назва, URL, розмір, дата створення і фрагмент тексту, що дозволяє судити про зміст сторінки (форма видачі результатів варіюється в різних системах і часто може вибиратися користувачем). Варто мати на увазі, що нерідко документ, на який указує пошукова система, уже не існує, тобто посилання застаріло. Звичайно пошукова система являє собою комплекс із декількох комп'ютерів, кожний з який виконує свою частину роботи. Наприклад, «Апорт-2000» працює на 12 комп'ютерах, Яndex — на 6, а Rambler — на 3. У сучасних умовах уже недостатньо просто опублікувати інформацію в мережі, важливо зробити так, щоб неї знаходили. Власники ресурсів використовують пошукові системи для «цілеспрямованої» видачі інформації саме тим, хто неї шукає. Основна задача реєстрації якого-небудь ресурсу в пошукових системах — зробити так, щоб його знаходили тільки ті користувачі, що у ньому бідують. Важливо знати, як система обчислює релевантність документа, тобто ранжує його при видачі результатів. У більшості західних пошукових систем і в деяких російських немає явного опису алгоритму ранжирування. Найчастіше основним параметром є відсоток слів із запиту, що присутні в документі. Часто використовуються також кількість слів запиту в текстовому вмісті документа (тобто в html-коді), відносна частота появи ключових слів у документі - питома вага слів, щодо яких визначається релевантність, у загальній кількості слів документа, близькість їхнього розташування, наявність ключових слів у заголовку документа, місце розташування шуканих слів у документі. Наприклад, «Апорт» з більш високим пріоритетом враховує слова в заголовках. Аналогічним образом враховуються тексти усередині посилань, виділення більш великим чи шрифтом іншим кольором. Rambler при ранжируванні документів використовує вісьмох рівнів важливості інформації, що міститься в них. AltaVista враховує ще і такі параметри , як час і індекс цитованості. Час - як довго сторінка знаходиться в базі пошукового сервера. Може показатися, що це досить безглуздий принцип. Але в Інтернет існує багато сайтів, що живуть максимум місяць. Якщо ж сайт існує досить довго, це означає, що власник досить досвідчений, а подан на ньому інформація з більшою імовірністю коректна і, отже, принесе користувачу більше користі. Індекс цитованості - як багато посилань на дану сторінку веде з інших сторінок, зареєстрованих у базі даних розвідувача. Можна припустити, що більш часто цитують сторінки, які містять інформацію, визнану корисної більш широким колом фахівців. Різні пошукові механізми також вибирають різні способи показу отриманого списку - деякі показують тільки посилання; інші виводять посилання c першими декількома пропозиціями, що містяться в чи документі заголовок документа разом з посиланням. Потім по посиланню до кожного з документів можна викликати цей документ із того сервера, на якому він знаходиться. AltaVista - один з найбільших і найшвидших пошукових серверів Результати пошуку представляються у виді списку коротких чи розгорнутих анотованих описів ресурсів. Можна шукати документи визначеною мовою, у тому числі і на росіянині. БД AltaVista - найбільша ІПС в Internet. Реєстрація сайтів у ній відбувається протягом 48 ч, і якщо інші пошукові машини іноді відключаються на технічну перерву, відмовляються приймати чи адреси включають їх у базу даних з великим запізненням, то за AltaVista таких "гріхів" не помічалося. Серед особливостей цієї пошукової системи можна вказати такі додаткові механізми, як Photo Finder -і інструмент пошуку зображень. Однак результати пошуку не впорядковані і не організовані, так що часто велику кількість наданої інформації приводить до великої витрати часу. Посилання, що знаходить AltaVista, високо релевантні (хоча і не завжди актуальними), а її здатність розпізнавати запити природною мовою є її великою перевагою. Найбільш цікава можливість AltaVista - це розширений пошук. На відміну від багатьох інших систем AltaVista підтримує одномісний оператор NOT. Крім цього, мається ще й оператор NEAR, що реалізує можливість контекстного пошуку, коли терміни повинні розташовуватися поруч у тексті документа. Крім всього іншого, при пошуку в AltaVista можна задати ім'я полючи, де повинне зустрітися слово: гіпертекстове посилання, applet, назва образа, заголовок і ряд інших полів. Мова опису WWW-сторінки: англійський. URL: http://www.altavista.com/ Yahoo! - найбільший онлайновий анотований каталог ресурсів глобальних мереж. Доступна інформація з посилань на різні сервіси Інтернет – від WWW-сторінок і серверів телеконференцій до FTP-серверів і архівів. Каталог улаштований за принципом багаторівневого ієрархічного предметного покажчика. Описи подано через повну назву Інтернет-ресурсу, а також коротку анотацію його змісту. Підтримується механізм повнотекстового пошуку по ключових словах і фразам на кожнім з рівнів з можливістю передачі запиту на пошукову систему AltaVista. У Yahoo! ніколи не зареєструють сайт, що знаходиться в стадії розробки, сервери, чиї хазяїни намагаються заманити до себе клієнтів за допомогою рекламних закликів, зовсім далеких по змісту від щирого інформаційного наповнення сторінок. Відвідувачі сайту можуть одержати безкоштовно адресу електронної пошти, скористатися можливостями мережного пейджингу (Instant Messaging), взяти участь у on-line дискусіях (Chat) і, що особливо цінується клієнтами, створити індивідуальний портал (My Yahoo!). Сайт має 14 локалізованих версій, де розташована інформація, що стосується тільки конкретного регіону, до приклада Yahoo! Germany чи Yahoo! Asia. Коли Yahoo! не може знайти дані у своєї БД, вона уступає повнотекстовій базі даних AltaVista. Мова опису WWW-сторінки: англійська. URL: http://www.yahoo.com/ Rambler - найбільша російська пошукова система, дозволяє вести як повнотекстовий пошук посилань на Інтернет-ресурси, так і пошук по елементах мережної адреси (URL), заголовкам WWW-документів. Запит складається по повному ключовому чи слову його основі, фразам і словосполученням, з використанням логічних операторів з обмеженням вибірки по датах створення/відновлення WWW-сторінок. Мається тематичний каталог, у кожнім з розділів якого зазначені 100 найбільш відвідуваних сайтів. Пошуковий сервер Rambler автоматично виключає з індексу стоп-слова, що зустрілися в більш ніж 800 тис. документів. Максимальний розмір документа для роботів Rambler складає 200 Кбайт. Більший розмір відтинається до зазначеної величини. Мова опису WWW-сторінки: російська. URL: http://www.rambler.ru/ При виконанні лабораторної роботи можна використовувати такі відомі ІПС: www.altavista.com www.goto.com www.dejanews.com www.euroseek.com infoseek.go.com www.lycos.com www.northernlight.com ww.yahoo.com www.searchking.com www.google.com www.rambler.ru www.ru www.meta.charkiv.com www.aport.ru www.au.ru www.yandex.ru або за допомогою якоїсь з них знайти їнші. Приклад заповнення таблиці:
Контрольні питання:
Контрольне завдання: За допомогою інформаційно-пошукових систем (оберіть найбільш придатні за результатами експериментів) знайдіть в Інтернет документи, які характеризують принципи 1) формування метаописів інформаційних ресурсів Інтернет; 2) форматів подання та опису мультимедіа; 3) роботи метапошукових систем. З повагою ІЦ "KURSOVIKS"! |