Тема Пошук інформації Навчальний посібник Internet для користувача за напрямом Право, НУДПСУ
« Назад4.2. Пошук інформаціїВ мережі Internet розміщено декілька мільйонів сайтів, що присвячені різноманітним темам та напрямам. Вважається, що інформація мережі складає значну частину інформаційного простору всього людства. Однак для отримання інформації, розміщеної на певному сайті необхідно знати його адресу. Запам'ятати адреси всіх сайтів, або ж перебрати їх в ручному режимі практично неможливо. Тому для пошуку адрес сайтів на яких розміщена певна інформація були створені пошукові системи, кожна з яких має спеціальну базу даних. В базі даних міститься опис та адреса сайту. За принципом формування бази даних пошукові системи діляться на три категорії. Перша категорія формує базу даних шляхом автоматичного сканування мережі Internet. В базу даних другої категорії пошукових систем дані про сайт заносяться адміністратором сайту. Третя категорія пошукових систем формує базу даних змішаним способом. Доступ до пошукових систем можна здійснити так: - Шляхом безпосереднього відкриття головної сторінки пошукової системи у вікні браузера. - Шляхом інтеграції пошукової системи в програмне забезпечення браузера. При цьому у вікні браузера з'являться відповідна пошукова форма. Відповідний приклад показаний на рис. 4.30. Пошукова форма виділена червоним овалом. - При відкритті сайту на якому розміщена пошукова форма однієї або декількох пошукової системи. Цей приклад показаний на рис. 4. 31. Пошукова форма виділена овалом. Вибір типу пошукової системи реалізується за допомогою відповідних перемикачів. Перелік та деякі характеристики найбільш відомих пошукових систем наведені в табл. 4.12. Відзначимо, що основна пошукова зона визначається доменними іменами сайтів які будуть розглянуті пошуковою системою в першу чергу. При цьому ні одна із пошукових систем не в змозі провести пошук по всім сайтам мережі Internet. Таблиця 4.12 Відомі пошукові системи
Вигляд головних сторінок основних пошукових систем показаний на рис. 4.32-4.36. Відповідно рис. 4.32, мета дозволяє обмежити круг пошуку: - Тематикою сайту (група гіперпосилань 2). - Містом України до якого відноситься сайт (група гіперпосилань 3). - Сферою діяльності сайту (група гіперпосилань 4). Відзначимо, що в деяких випадках для українських користувачів варіант пошукової системи Google, розміщений за адресою www.google.com є недоступним. Причиною цього є те, що при наборі адреси www.google.com деякі українські провайдери переадресують запит до українського варіанту Google, розміщеного за адресою www.google.com.ua. 1 - пошукова форма, 2, 3, 4 - гіперпосилання, що обмежують пошук заданим розділом, 5 - гіперпосилання, що дозволяє встановити сайт Мета в якості домашньої сторінки. Як видно із рис. 4.32-4.36, загальними рисами сайтів всіх пошукових систем є надання користувачу можливості: - Обмеження пошуку заданими параметрами, наприклад регіоном, тематикою сайту, новинами, рефератами. - Встановлення спеціалізованого програмного забезпечення, що дозволяє інтегрувати пошукову систему і браузер. Для цього слід перейти по відповідному гіперпосиланню, а в Google натиснути на відповідну кнопку, що розміщена на додатковій сторінці. - Встановити головну сторінку пошукової сторінки в якості домашньої сторінки браузеру. Для цього слід перейти по відповідному гіперпосиланню. 1 - пошукова форма, 2 - кнопка запуску пошуку, 3,4 - гіперпосилання, що обмежують пошук заданим розділом, 5 - гіперпосилання, що дозволяє встановити сайт Яндекс в якості домашньої сторінки, 6 - перемикач обмеження пошуку сайтами з України (в даному випадку обмеження не активне). Використання більшості розповсюджених пошукових систем базується на тому, що користувач в текстовому вигляді повинен описати необхідну йому інформацію та натиснувши кнопку “Знайти” (“Найти”) запустити процес пошуку. Після цього пошукова система знаходить сайти на яких є слова, що відповідають опису та виводить результати пошуку у вікно браузеру. 1 - пошукова форма, 2 - кнопка запуску пошуку, 3,4 - гіперпосилання, що обмежують пошук розділом, 5 - гіперпосилання, для встановлення Rambler як домашньої сторінки, 6 - гіперпосилання для інтеграції Rambler в браузер. 1 - пошукова форма, 2 - кнопка запуску пошуку, 3,4,6 - гіперпосилання, що обмежують пошук розділом та регіоном, 5 - гіперпосилання, для встановлення Апорт в якості домашньої сторінки. 1 - пошукова форма, 2 - кнопка запуску пошуку, 3,4 - гіперпосилання, що обмежують пошук заданим розділом, 5 - гіперпосилання, що дозволяє встановити сайт Google в якості домашньої сторінки, 6 - гіперпосилання, що дозволяє встановити програмне забезпечення для інтеграції Google в браузер. Для прикладу на рис. 4. 37, 4.38 показано відображення в браузері Internet Explorer фрагмент результатів пошуку сайтів, що містять інформацію присвячену спорту на Україні. На рис. 4.37 відображено результати пошуку за допомогою системи Мета, а на рис. 4.38 - результати пошуку за допомогою системи Google . Порівняння результатів пошуку показаних на рис. 4.37 та рис. 4.38 показує, що вони значено відрізняються один від іншого. При цьому пошук був реалізований за допомогою двох українських пошукових систем з однаковими параметрами. Це вказує на доцільність використання декількох пошукових систем, особливо при необхідності знайти важливу альтернативну інформацію. Найчастіше результати пошуку представляють собою нумерований список, кожен пункт якого містить адресу та короткий опис сайту. В багатьох випадках кількість знайдених сайтів занадто велика, щоб відобразити їх у одному вікні. Тому виводяться результати на декількох Web-сторінках, кожна з яких містить 10-30 адрес та описів сайтів. 1 - перемикач, що дозволяє провести новий пошук у знайдених сайтах. Порядок виводу знайдених сайтів називається рейтингом. Вважається, що якість формування рейтингу результатів пошуку є визначаючим критерієм ефективності роботи пошукової системи. При цьому слід враховувати, що розробка якісної функції рейтингу досить непроста задача, як через велику неоднорідність документів, що ранжируються, так і через спроби свідомого спотворення результатів. Причиною спотворення результатів пошуку є бажання багатьох власників бачити свій сайт на перших позиціях результатів пошуку, адже по статистичним даним користувачі переглядають максимум дві три сторінки рейтингу. Для спотворення результатів використовуються спеціальні методи, наприклад пошуковий спам, які дозволяють підвищувати рейтинг сайту незалежно від його відповідності пошуковому запиту. Крім того, практика показує, що адміністратори пошукових систем можуть формувати суб'єктивний рейтинг. За рахунок цього перші позиції досить часто займають сайти, які погано співвідносяться з темою пошуку. Відзначимо, що адміністратори всіх пошукових систем заперечують суб'єктивний рейтинг та стверджують що він формується автоматично відповідно опублікованим критеріям без спеціального коректування результатів пошуку для яких-небудь запитів або сайтів. Вказані обставини обумовлюють те, що користувач пошукової системи повинен враховувати методику формування рейтингу для того, щоб знати як ефективно проводити пошук. Дане завдання ускладнюється тим, що всі пошукові системи тримають методику формування рейтингу у таємниці., пояснюючи це комерційною таємницею, міркуваннями безпеки і т.і. Однак загальні критерії, відповідно яким може бути побудовано рейтингу відомі. До згаданих критеріїв відносяться: - Частота і взаємне розташування слів запиту в тексті документа. При розрахунку вказаних частотних характеристик враховується як абсолютна, так і відносна частота слів запиту в тексті документу. І для тієї і для іншої величини існують порогові значення, після досягнення яких подальше збільшення частоти не впливає на вагу документа. Для невеликих документів, розмір яких (в словах) менше заданої константи, відносна частота розраховується не від їх фактичного розміру, а від цієї константи. У заголовку, мета-тегах, а також в назві і описі сайту з каталога частота слів не враховується. - Розмір документа. - Присутність і взаємне розташування слів запиту у виділеному (розміром шрифту або html-тегами <b> <strong> <h1>...<h6>) тексті. - Присутність і розташування слів запиту в заголовку документа. - Присутність і розташування слів запиту в мета-тегах "keywords" і "description". Відзначимо, що в деяких пошукових системах, наприклад в Апорт, ключові слова (meta keywords) враховуються навіть у разі їх відсутності в тексті документа. Індексується не більше 10-50 ключових слів для кожного документа. Мета-тег description також враховується при ранжируванні, проте, в більшості випадків, має дуже невелику вагу. - Присутність і розташування слів запиту в гіперпосиланнях на документ і авторитетність цих гіперпосилань, що ранжирується. - Присутність і взаємне розташування слів запиту в назві і описі сайту в каталозі пошукової системи (враховується при обчисленні ваги головної сторінки сайту). - Зважений індекс цитування документа. Алгоритм обчислення вказаного критерію базується на підрахунку кількості гіпертекстових посилань на даний документ з інших документів. Як правило враховується не більше одного посилання на документ з кожного домена другого рівня. - Кількість сторінок сайту, що мають високу відповідність запиту. Результуюча вага документа розраховується по спеціальному алгоритму, що враховує поєднання різних критеріїв. Чим більшу вагу має документ, тим більш точно він відповідає пошуковому запиту (більш релевантний) і тим вище буде його місце в рейтингу результатів. В деяких пошукових системах, наприклад Апорт та Рамблер для підвищення якості рейтингу використовування інформація з каталогу пошукової системи. Ця інформація має високий степінь достовірності, оскільки складена або перевірена професіонально підготовленими редакторами. Ще одним перспективним напрямком підвищення якості пошуку в Апорті є прагнення до обліку максимальної кількості критеріїв рейтингу в їх взаємозв'язку. Зокрема, помітну перевагу одержують документи, що мають високу вагу відразу по декількох незалежних критеріях. Наприклад, по частотності слів запиту в тексті і зваженому індексу цитування. Крім того, на сторінці результатів запиту знаходиться достатньо багато управляючих елементів призначених для уточнення пошуку. Зразок типової сторінки відображення результатів запиту пошукової системи Апорт показано на рис. 4.39. Якщо необхідно обмежити зону пошуку окремою темою або рубрикою то необхідно перейти по гіперпосиланню на відповідну Web-сторінку. Після цього необхідно активізувати перемикач “Шукати в розділі” або “Шукати по регіону”. Після цього пошук буде вестись в повнотекстовій базі даних. В більшості пошукових систем повнотекстова база даних містить: - Текст, що відображається користувачеві при перегляді сайту у вікні браузеру. - Опис сайту, визначений при його реєстрації в пошуковій системі. Опис сайту, визначений за допомогою спеціальних тегів.Практика показує, що використання означених управляючих елементів (гіперпосилань, перемикачів) не дозволяє достатньо гнучко проводити пошук інформації. Підвищити гнучкість пошуку можливо за рахунок правильно сформованих пошукових запитів. Розглянемо методику їх створення. Кожний запит, адресований пошуковій системі, обробляється відповідно до правил мови запитів. 1 - закладки для переходу між різними видами пошуку, 2 - посилання на результати пошуку по ресурсам новин для заданого запиту (в дужках вказано число знайдених новин), 3 - посилання на новину, яка найбільш точно відповідає заданому запиту, 4 - число результатів знайдений сайтів, 5 - назва і посилання на знайдений сайт, 5 - опис сайту, 6 - нзва і адреса самого відповідного запиту документа на сайті, 7 - цитати з повного тексту документа з виділенням слів запиту, 8 - посилання на збережений текст документа (використовується, якщо сайт не доступний), 9 - адреса знайденого сайту, 10 - рубрики з каталога на тему запиту, 11 - посилання на результати пошуку по даному сайту (всі знайдені сторінки), 12 - країна або регіон, до якого належить знайдений сайт. При кліці по посиланню буде проведений пошук за запитом з обмеженням області пошуку сайтами з цього регіону, 13 - посилання на рубрику каталога, до якої відноситься знайдений сайт (якщо сайт опублікований в каталозі), 14 - країна або регіон, до якого відноситься ваша IP-адреса. При кліці по посиланню буде проведений пошук за запитом з обмеженням області пошуку сайтами з цього регіону, 15 - контекстна реклама. Звичайно запит складається з одного або декількох слів, наприклад: ‘мікропроцесори компанії Intel’. По такому запиту знаходяться документи, в яких зустрічаються всі слова запиту. Є, правда, обмежене число службових слів які в запиті, як правило, ігноруються. Це відбувається по причині того, що слова не несуть самі по собі змістовного навантаження. Наприклад, за запитом: ‘яблука на снігу’ будуть знайдені документи, в яких зустрічаються одночасно два слова: ‘яблуко’ і ‘сніг’. В більшості пошукових систем незалежно від того, в якій граматичній формі записане слово в запиті, воно знаходиться в документах у всіх своїх формах. Наприклад, за запитом: ‘людина йшла’ будуть знайдені серед інших і документи, що містять текст ‘люди йдуть’. Деякі слова і символи трактуються як оператори мови запитів і обробляються спеціальним чином. Таким чином, пошуковий запит може складатися з одного або декількох слів, в ньому можуть бути присутні розділові знаки та спеціальні службові символи (оператори). Пошук операторів в документі не проводиться, вони служать лише інструкцією пошуковій машині. Всі оператори пошукової машини бінарні, тобто мають ліву і праву частину, кожна з яких також є запитом (що за умовчанням складається з одного слова). Для зміни області дії операторів (групування декількох слів запиту в аргумент оператора) застосовуються дужки і лапки. Фактично, мовою запитів описується деяка формула, яка використовується при пошуку - кожний з документів ‘зіставляється’ з нею, і результатом пошуку є тільки ті документи, які їй задовольняють. Наприклад, запиту ‘літак’задовольняють всі документи, в яких хоча б раз зустрілося слово ‘літак’в будь-якій формі. Запиту, що складається з декількох слів, задовольняють документи, що містять кожне з цих слів в будь-якій формі. Але для здійснення більш складних запитів необхідне знання мови запитів. Як правило, регістр написання пошукових слів і операторів значення не має. Наприклад, будинок і БУДИНОК, Not і nOt сприймаються однаково. Але іноді, в цілях підвищення якості пошуку, регістр слів пошукового запиту береться до уваги. Наприклад, якщо запит складається з двох, трьох або чотирьох слів, кожне з яких написане з великої букви, то передбачається пошук по імені власному. Тоді автоматично проводиться зміна обмеження відстані між словами запиту із значення за умовчанням на величину (n-1)*2, де n - кількість слів запиту. Це дозволяє знаходити групу слів запиту, усередині якої є не більш одного ‘зайвого’ слова або розділового знаку. Наприклад, ‘Баден-Баден’, ‘Т. Шевченко’. Існує деякий пріоритет виконання одних операторів над іншими. Наприклад, оператори AND і NOT традиційно мають більш високий пріоритет, ніж оператор OR. Тому запит з декількох слів при обробці спочатку групується по операторах AND і NOT, і лише потім по операторах OR. Змінити порядок угрупування можна за допомогою використання дужок. По кожному слову запиту пошук ведеться з урахуванням правил словозміни відповідної мови. Відзначимо, що всі пошукові машини розуміють і розрізняють слова російської і англійської мов, а українські пошукові машини додатково розуміють і розрізняють слова української мови. Пошук ведеться по всіх формах слова. Наприклад, при пошуку по слову 'людина' будуть також знайдені документи, що містять слова 'людині', 'людиною', 'людини'і навіть 'люди'. Щоб провести пошук тільки по одній певній формі слова, потрібно узяти його в подвійні лапки або скористатися пошуком точної фрази в розширеному пошуку. Для пошуку цитат використовують подвійні лапки. Слова запиту, укладеного в подвійні лапки, шукаються в документах саме в тому порядку, в якому вони представлені в запиті. Таким чином, подвійні лапки можна використовувати і просто для пошуку слова в заданій формі. Наприклад, запиту 'літак “заправився” посадка'задовольняє документ, що містить текст '... літак вчинив посадку і заправився ...', і не задовольняє документ, що містить '.. літак вчинив посадку, щоб заправитися ...'. Розглянемо деякі приклади використання логічних операторів AND, OR, NOT . Два запити, сполучені оператором AND (логічне І) утворюють складний запит, якому відповідають тільки ті документи, які одночасно задовольняють обом цим запитам. Іншими словами, за запитом ‘собака AND кішка’знайдуться тільки ті документи, які містять і слово ‘собака’, і слово ‘кішка’. Складному запиту, що складається з двох запитів, сполучених оператором OR (логічне АБО) відповідають всі документи, що задовольняють хоча б одному з цих двох запитів. За запитом ‘собака OR кішка’знайдуться документи, в яких є хоча б одне із слів ‘собака’або ‘кішка’ (або обидва ці слова разом). Оператор NOT (логічне НІ) утворює запит, якому відповідають документи, що задовольняють лівій частині запиту і не задовольняють правій частині. Так результатом пошуку за запитом ‘собака NOT кішка’будуть всі документи, в яких є слово ‘собака’ і немає слова ‘кішка’. Якщо оператор явно не вказаний, використовується оператор за умовчанням AND: знаходяться тільки документи, що містять всі слова запиту. Так, наприклад, запит ‘інформація технології кредит’ буде відповідати ‘інформація AND технології AND кредит’.На сторінці Розширеного пошуку оператор за умовчанням можна замінити на OR (шукати слова запиту: хоча б одне). Якщо запит складений з одного або декількох слів без вживання операторів і конструкцій мови запитів, то будуть знайдені документи, в яких зустрічаються всі слова запиту. При цьому для кожного запиту завжди існує так зване обмеження контексту - позитивне число, за умовчанням воно дорівнює відстані в 40 слів. Документ, в якому зустрілися всі слова запиту, буде виданий тільки в тому випадку, якщо відстань між словами запиту буде менше цього числа. Наприклад, за запитом ‘червона армія’ будуть знайдені ті документи, в яких слова ‘червона’і ‘армія’хоча б один раз зустрінуться на відстані менш ніж в 40 словах один від одного. Значення обмеження контексту можна змінювати конструкцією '(число, запит)', де число - будь-яке позитивне число, запит - будь-який коректний з погляду пошукової машини запит, що складається більш ніж з одного слова. Таким чином, за запитом '(2, червона армія)' знайдуться тільки ті документи, в яких між словами 'червона'і 'армія'хоча б раз не зустрінеться жодного слова (оскільки лише у разі їх безпосереднього сусідства різниця в порядкових номерах слів менше 2, тобто рівна 1). Як вже було відзначено, за умовчанням деякі слова і символи виключаються із запиту у зв'язку з їх малою інформативністю. Це так звані стоп-слова. Присутність цих слів може уповільнити пошук і негативно вплинути на повноту результатів. Але іноді присутність цих стоп-слів необхідна. Тоді запит потрібно узяти в подвійні лапки або скористатися пошуком точної фрази в розширеному пошуку. При побудові запитів іноді виникає необхідність об'єднання слів запиту в групи, які будуть аргументами деякого оператора. Такі групи повинні знаходитися в дужках. Частина запиту, яка знаходиться в дужках, сама є запитом, і на неї розповсюджуються правила мови побудови запитів. Використання дужок дозволяє будувати вкладені запити і передавати їх операторам як аргументи, а також перекривати пріоритети операторів, прийняті за умовчанням. Запит без дужок 'машина літак | аеродром'еквівалентний запиту 'машина AND літак OR аеродром'і, відповідно до пріоритетів операторів, означає “знайти документи, що містять або слова 'машина'і 'літак', або слово 'аеродром'”. А запит з дужками 'машина (літак | аеродром)'рівносильний запиту 'машина AND (літак OR аеродром)', що означає “знайти документи, що містять слово 'машина' і одне із слів 'літак' або 'аэродром'”. Перелік та призначення груп операторів наведений в табл. 4.13-4.16. Таблиця 4.13 Логічні оператори
Таблиця 4.14 Оператори визначення відстані
Таблиця 4.15 Оператори пошуку по адресам
Таблиця 4.16 Оператори пошуку по полям
Більшість пошукових систем поки не підтримують пошук рядків з використанням метасимволів ('*' та '?'), які звичайно використовуються в значенні "будь-яка послідовність символів" і "довільний одиночний символ". Проте, ці оператори зарезервовані для подібного використання в майбутньому. Якщо запит складається з декількох слів, і при цьому деякі з них взагалі не вдалося знайти в Internetі, то видаються результати пошуку по частковому запиту (з запиту відсутні в Internetі слова виключені). При цьому на сторінці результатів пошуку видається відповідна діагностика. Цікавою особливістю пошукової системи Рамблер є можливість шукати сторінки, на яких розміщені лічильники Top100, TopShop, TopList, SpyLog, а також HotLog. Для того, щоб знайти в Internet всі сторінки, на яких розміщений лічильник із заданим ідентификатором, необхідно використовувати оператор ${counter=ID}, де counter - назва лічильника (top100, topshop, toplist, spylog або hotlog), а ID - номер лічильника (ідентифікатор ресурсу). Наприклад, для того, щоб знайти всі сторінки розділу Рамблер-листівки (ідентифікатор Top100 - 193680), необхідно подати Рамблеру запит ${top100=193680}. Наведемо загальні поради формування пошукових запитів. 1. Необхідно продумати концепт запиту. В найзагальнішому вигляді концепт це значення, яке користувач вкладає в запит. Питання в тому, яким чином відобразити те, що користувач хоче відшукати в ключові слова запиту? Можна спробувати відшукати інформацію в лоб - просто ввівши ключові слова, які відповідають запиту. Як правило, цього достатньо. Якщо ж результатів пошуку немає зовсім або вони не точні, то потрібно спробувати переформулювати запит, тобто використовувати інші ключові слова, синоніми, які відповідають змістовному значенню пошуку. Можливий і інший підхід. Документи, які містять інформацію, що цікавить користувача, можуть не бути присутні в базі пошукової системи Мети. Однак вони є все таки можуть бути наявні Internetі. Для того, щоб їх знайти необхідно використовувати ключові слова, що відповідають більш загальним категоріям. Наприклад, якщо потрібно знайти конкретний український закон, то краще шукати сервера, присвячені українському законодавству. Інший приклад, якщо необхідно знайти поштову адресу якої-небудь організації, то можливо здійснити пошук сайту з розміщеним бізнес каталогом. 2. Необхідно продумати ключову фразу, що відповідає концепту запиту. В своїх розмовах люди використовують багато стійких виразів та словосполучень. Автори Web-сайтів користуються такими ж поєднаннями слів в своїх документах. Тому, запит з використанням стійких фраз і виразів, що відносяться до теми пошуку - один з важливих способів швидко одержати якісний перелік потрібних матеріалів. Іншими словами, потрібно шукати не слова, а словосполучення. Для пошуку в подібних випадках потрібно використовувати лапки (дужки) або оператори відстані. Наприклад, по запиту “Вік живи” пошукова система з великою ймовірністю видасть сторінки, де міститься прислів'я "Вік живи - століття вчися" і його варіації. При цьому в короткій анотації ресурсу буде відображенасаме ключова фраза. Запити, що включають фрази "Комп'ютерна периферія", "курс валют", "прайс-лист" і т.і. значно скорочують загальне число знайдених документів і дозволяють уточнити пошук. При цьому слід враховувати, що основне змістовне навантаження в мові несуть іменники. Важливо, що такий стан речей підтверджується аналізом ключових пошукових слів (метатегів), які прописує автор в описі web-сторінки. Основна маса цих ключових слів - іменники. Значно рідше використовуються додатки, і зовсім рідко дієслова та займенники. Нагадаємо, що саме відповідність ключових слів та пошукового запиту є один із критеріїв формування рейтингу. Прикметники слід використовувати в запиті, якщо користувач хоче знайти в Internet саме “голландський сир” або “зелене яблуко”. Дуже ефективний засіб для швидкого отримання точних результатів це використання рідкісних слів. До таких слів можна віднести спеціальні терміни, назви місцевості, організації, імена людей і інше. Наприклад, полівінілхлорид, Пномпень, УКРГАЗПРОМ, Лорак і т.і. Використання точних слів відразу спрямовує пошук до потрібної тематики. 4. Необхідно оптимально визначити кількість слів в пошуковому запиті. Для отримання інформативних результатів пошуку важливо поставити коректний запит. Результати пошуку на дуже короткий запит будуть неконкретними, оскільки неясно, що саме мається на увазі. Наприклад, в результатах пошуку за запитом "Київ" буде представлена різнотематична та різнопланова інформація: сайти організацій, довідково-інформаційні сайти, дошки оголошень, каталоги посилань і ін. Зате запит "Історія Києва" явно говорити про те, що потрібно знайти, тому і результат пошуку буде адекватними. Однак занадто довга ключова фраза може призвести до того, що пошукова машина не зможе нічого підібрати для даного запиту. Отже в випадку, коли потрібна загальна інформація, що має хоч якесь відношення до теми, достатньо одного слова. Напевно, серед декількох сотень документів, які видасть пошукова система буде документ, який відповідає темі пошуку. Проте, де буде знаходитись цей документ - в першій десятці результатів або на тисячному місці справа випадку. Для того, щоб одержати підбірку результатів, яка буде більш точна відповідати темі запиту краще шукати відразу за декількома словами, що характеризують запит більш детально. Таким чином в більшості випадків оптимальним буде запит, що , складаються з 2-3 слів, в яких чітко сформульовані об'єкти пошуку. На нього пошукова машина видасть коректні та очікувані результати. Відзначимо, що за статистикою користувачі зарубіжних пошукових систем використовують в середньому 1,5 слова в запиті. Наші користувачі більш "багатослівні" - 2,5 слова на один запит. 6. Використовуйте “Розширений пошук” для того, щоб наперед настроїти зручний вид результатів пошуку. Нагадаємо, що по умовчанню результати пошуку відображаються в порядку відповідності всіх сторінок сайту пошуковому запиту. В більшості пошукових систем “Розширений пошук” дозволяє переключитись на режим формування рейтингу по відповідності окремих сторінок або по даті (як правило спочатку рейтингу знаходяться більш нові документи). Для цього необхідно скористатися відповідним гіперпосиланням в рядку “Сортувати по...”, яке знаходиться в верхній або нижній частині сторінки результатів пошуку. 7. Для звуження простору швидкості пошуку специфічної інформації до якої відносяться сайти присвячені нерухомості, рефератам, мелодіям для мобільних телефонів, бібліотекам, комп'ютерам і т.д., доцільно скористатись тематичним пошуком по додатковим базам пошукових систем. Наприклад Апорт містить більш ніж 20 баз додаткового пошуку. Більшість пошукових систем містить добре структурований каталог з можливістю пошуку по сайтам в середині тематичних рубрик. Відповідність результатів пошуку по сайтам в середині каталогу запитам, які узгоджуються з тематикою рубрики, набагато більш висока, ніж просто пошук по Internetу. Причиною цього є те, що в рубриках каталогу знаходяться тільки сайти з перевіреним модераторами тематичним контентом. 8. Для пошуку аудіо інформації доцільно використовувати спеціальний вид пошуку по аудіо файлам (*.mp3, *.midi, *.ra та ін.). Доведено, що даний вид пошуку набагато більш ефективний ніж звичайний пошук. Для переходу на сторінку пошуку аудіо файлів слід скористатись відповідним гіперпосиланням, розміщеним на головній сторінці пошукової системи. Розглянемо питання, що найчастіше виникають у користувачів при формуванні пошукових запитів. 1. Що таке нестрогий пошук? Механізм "нестрогого пошуку" застосовується в пошукових системах у випадках, коли не були одержані результати точно відповідні даному запиту. Наприклад, запиту, що складається з великої кількості слів (більше трьох), знайдена недостатня кількість документів в базі. В цьому випадку виконується додатковий, переформульований (змінений) запит до пошукової машини за додатковими документами, які можуть бути цікаві користувачу. Даний процес є ітеративним, тобто продовжується до тих пір, поки, або не буде знайдена достатня кількість документів, або пошукова система вичерпає можливості зміни запитів. Як правило, вистачає одного переформульованого запиту для знаходження необхідної кількості документів. Документи, одержані за допомогою "нестрогого" і основного пошуків, як правило розділені полем "Можливо, що наступні документи містять не всі слова пошукового запиту". Механізм "нестрогого пошуку" певним чином збільшує навантаження на пошукові сервери і підключається до основного пошуку тільки у разі наявності вільних апаратних ресурсів. Тому результати пошуку в різний час на одні і ті ж запити можуть розрізнятися. 2. Як зробити, щоб за запитом видавався не окремий фрейм, а основна сторінка сайту? Для того, щоб при пошуку зареєстрованого сайту, що складається з фреймів, побачити основну сторінку (<frameset>), потрібно перейти по гіперпосиланню “Див. всі документи з сайту” або по посиланню “На тому ж сайті (всього знайдено документів: ...)”. 3. Яка швидкість оновлення бази пошукових систем? Це залежить від багатьох чинників (наприклад, від швидкості, з якою роботу пошукової системи відповідають серверb, на яких розміщені Web-сайти). Наприклад, в середньому робот Рамблера за добу збирає інформацію про чотири мільйони сторінок. Контрольні запитання
З повагою ІЦ “KURSOVIKS”! |