Роздрукувати сторінку
Главная \ Методичні вказівки \ Методичні вказівки \ 818 Тема Пошук інформації Навчальний посібник Internet для користувача за напрямом Право, НУДПСУ

Тема Пошук інформації Навчальний посібник Internet для користувача за напрямом Право, НУДПСУ

« Назад

4.2. Пошук інформації

В мережі Internet  розміщено декілька мільйонів сайтів, що присвячені різноманітним темам та  напрямам. Вважається, що інформація мережі складає значну частину інформаційного простору всього людства. Однак для отримання   інформації, розміщеної на певному сайті необхідно знати його адресу. Запам'ятати адреси всіх сайтів, або ж перебрати їх в ручному режимі практично неможливо. Тому для пошуку адрес сайтів на яких розміщена певна інформація були створені пошукові системи, кожна з яких має спеціальну базу даних. В базі даних міститься опис та адреса сайту. За принципом формування бази даних пошукові системи діляться на три категорії. Перша категорія формує базу даних шляхом автоматичного сканування мережі Internet. В базу даних другої категорії пошукових систем дані про сайт заносяться адміністратором  сайту. Третя категорія  пошукових систем формує базу даних змішаним способом. 

Доступ до пошукових систем можна здійснити так:

- Шляхом безпосереднього відкриття головної сторінки пошукової системи у вікні браузера.

- Шляхом інтеграції пошукової системи в програмне забезпечення браузера. При цьому у вікні браузера з'являться відповідна пошукова форма. Відповідний приклад показаний на рис. 4.30. Пошукова форма виділена червоним овалом.

- При відкритті сайту на якому розміщена пошукова форма однієї або декількох пошукової системи. Цей приклад показаний на рис. 4. 31. Пошукова форма виділена овалом. Вибір типу пошукової системи реалізується за допомогою відповідних перемикачів.

Перелік та деякі характеристики найбільш відомих пошукових систем наведені в  табл. 4.12. Відзначимо, що основна пошукова зона визначається доменними іменами сайтів які будуть розглянуті пошуковою системою в першу чергу. При цьому ні одна із пошукових систем не в змозі провести пошук по всім сайтам мережі Internet.

Таблиця 4.12

Відомі пошукові системи

Назва

Адреса

Основна пошукова зона Internet

 

Особливості

1

2

3

4

Мета

www.meta.ua

Українська

Підрозділ Яндекс. Дозволяє обмежити пошук тільки сайтами з України

Яндекс

www.yandex.ru

Російська

 

Рамблер

www.rambler.ru

Російська

 

Апорт

www.aport.ru

Російська

Дозволяє користувачеві самостійно визначити приорітенту пошукову зону

Google

www.google.com

Всесвітній пошук

Вважається найбільш потужною

www.google.com.ua

Українська

Дозволяє обмежити пошук тільки сайтами з України або Росії

www.google.ru

Російська

Дозволяє обмежити пошук тільки   сайтами з Росії

Вигляд головних сторінок основних пошукових систем показаний на рис. 4.32-4.36. Відповідно рис. 4.32, мета дозволяє обмежити круг пошуку:

- Тематикою сайту (група гіперпосилань 2).

- Містом України до якого відноситься сайт (група гіперпосилань 3).

- Сферою діяльності сайту (група гіперпосилань 4).

Відзначимо, що в деяких випадках для українських користувачів варіант пошукової системи Google, розміщений за адресою www.google.com є недоступним. Причиною цього є те, що при наборі адреси www.google.com деякі українські провайдери переадресують запит до українського варіанту Google, розміщеного за адресою www.google.com.ua. 

1 - пошукова форма, 2, 3, 4 - гіперпосилання, що обмежують пошук заданим розділом, 5 - гіперпосилання, що дозволяє встановити сайт Мета в якості домашньої сторінки.

Як видно із рис. 4.32-4.36, загальними рисами сайтів всіх пошукових систем  є надання користувачу можливості:

- Обмеження пошуку заданими параметрами, наприклад регіоном, тематикою сайту, новинами, рефератами.

- Встановлення спеціалізованого програмного забезпечення, що дозволяє інтегрувати пошукову систему і браузер. Для цього слід перейти по відповідному гіперпосиланню, а в Google натиснути на відповідну кнопку, що розміщена на додатковій сторінці.

- Встановити головну сторінку пошукової сторінки в якості домашньої сторінки браузеру. Для цього слід перейти по відповідному гіперпосиланню.

1 - пошукова форма, 2 - кнопка запуску пошуку, 3,4 - гіперпосилання, що обмежують пошук заданим розділом, 5 - гіперпосилання, що дозволяє встановити сайт Яндекс в якості домашньої сторінки, 6 - перемикач обмеження пошуку сайтами з України (в даному випадку обмеження не активне).

Використання більшості розповсюджених пошукових систем базується на тому, що користувач в текстовому вигляді повинен описати необхідну йому інформацію та натиснувши кнопку “Знайти” (“Найти”) запустити процес пошуку. Після цього пошукова система знаходить сайти на яких є слова, що відповідають опису та виводить результати пошуку у вікно браузеру.

1 - пошукова форма, 2 - кнопка запуску пошуку, 3,4 - гіперпосилання, що обмежують пошук розділом, 5 - гіперпосилання, для встановлення Rambler як домашньої сторінки, 6 - гіперпосилання для інтеграції Rambler в браузер.

1 - пошукова форма, 2 - кнопка запуску пошуку, 3,4,6 - гіперпосилання, що обмежують пошук розділом та регіоном, 5 - гіперпосилання, для встановлення  Апорт в якості домашньої сторінки.

1 - пошукова форма, 2 - кнопка запуску пошуку, 3,4 - гіперпосилання, що обмежують пошук заданим розділом, 5 - гіперпосилання, що дозволяє встановити сайт Google в якості домашньої сторінки, 6 - гіперпосилання, що дозволяє встановити програмне забезпечення для інтеграції Google в браузер.

Для прикладу на рис. 4. 37, 4.38 показано відображення в браузері Internet Explorer фрагмент результатів пошуку сайтів, що містять інформацію присвячену спорту на Україні. На рис. 4.37 відображено результати пошуку за допомогою системи Мета, а на рис. 4.38 - результати пошуку за допомогою системи Google .

Порівняння результатів пошуку показаних на рис. 4.37 та рис. 4.38 показує, що вони значено відрізняються один від іншого. При цьому пошук був реалізований за допомогою двох українських пошукових систем з однаковими параметрами. Це вказує на доцільність використання декількох пошукових систем, особливо при необхідності знайти важливу альтернативну інформацію.

Найчастіше результати  пошуку представляють собою нумерований список, кожен пункт якого містить адресу та короткий опис сайту.  В багатьох випадках кількість знайдених сайтів занадто велика, щоб відобразити їх у одному вікні. Тому виводяться результати на декількох Web-сторінках, кожна з яких містить 10-30 адрес та описів сайтів.

1 - перемикач, що дозволяє провести новий пошук у знайдених сайтах.

Порядок виводу знайдених сайтів називається рейтингом.  Вважається, що якість формування рейтингу результатів пошуку є визначаючим критерієм ефективності роботи пошукової системи. При цьому слід враховувати, що розробка якісної функції рейтингу досить непроста задача, як через велику неоднорідність документів, що ранжируються, так і через спроби свідомого спотворення результатів.

Причиною спотворення результатів пошуку є бажання багатьох власників бачити свій сайт на перших позиціях результатів пошуку, адже по статистичним даним користувачі переглядають максимум дві три сторінки рейтингу. Для спотворення результатів використовуються спеціальні методи, наприклад пошуковий спам, які дозволяють підвищувати рейтинг сайту незалежно від його відповідності пошуковому запиту.  Крім того, практика показує, що адміністратори пошукових систем можуть формувати суб'єктивний рейтинг. За рахунок цього перші позиції досить часто займають сайти, які погано співвідносяться з темою пошуку. Відзначимо, що адміністратори всіх пошукових систем заперечують суб'єктивний рейтинг та стверджують що він формується автоматично відповідно опублікованим критеріям без спеціального коректування результатів пошуку для яких-небудь запитів або сайтів.  

Вказані обставини обумовлюють те, що користувач пошукової системи повинен враховувати методику формування рейтингу для того, щоб знати як ефективно проводити пошук. Дане завдання ускладнюється тим, що всі   пошукові системи тримають методику формування рейтингу у таємниці., пояснюючи це комерційною таємницею, міркуваннями безпеки і т.і. Однак  загальні критерії, відповідно яким може бути побудовано рейтингу відомі. До згаданих критеріїв відносяться:

- Частота і взаємне розташування слів запиту в тексті документа. При розрахунку вказаних частотних характеристик враховується як абсолютна, так і відносна частота слів запиту в тексті документу. І для тієї і для іншої величини існують порогові значення, після досягнення яких подальше збільшення частоти не впливає на вагу документа. Для невеликих документів, розмір яких (в словах) менше заданої константи, відносна частота розраховується не від їх фактичного розміру, а від цієї константи.  У заголовку, мета-тегах, а також в назві і описі сайту з каталога частота слів не враховується.

-  Розмір документа.

- Присутність і взаємне розташування слів запиту у виділеному (розміром шрифту або html-тегами <b> <strong> <h1>...<h6>) тексті.

- Присутність і розташування слів запиту в заголовку документа.

- Присутність і розташування слів запиту в мета-тегах "keywords" і "description". Відзначимо, що в деяких пошукових системах, наприклад в Апорт, ключові слова (meta keywords) враховуються навіть у разі їх відсутності в тексті документа. Індексується не більше 10-50 ключових слів для кожного документа. Мета-тег description також враховується при ранжируванні, проте, в більшості випадків, має дуже невелику вагу.

- Присутність і розташування слів запиту в гіперпосиланнях на документ і авторитетність цих гіперпосилань, що ранжирується.

- Присутність і взаємне розташування слів запиту в назві і описі сайту в каталозі пошукової системи (враховується при обчисленні ваги головної сторінки сайту).

- Зважений індекс цитування документа. Алгоритм обчислення вказаного критерію базується на підрахунку кількості гіпертекстових посилань на даний документ з інших документів. Як правило враховується не більше одного посилання на документ з кожного домена другого рівня.
Індексом цитування сайту вважається зважений індекс цитування сторінки, найвищий серед всіх сторінок сайту (в більшості випадків це буває зважений індекс цитування головної сторінки сайту). Зважений індекс цитування є спробою підвищення якості рейтингу шляхом врахування  гіпертекстової структури Internetу.  Його використання в багатьох випадках дозволяє  відрізнити якісний контент від схожого за змістом “сміття”, а також (що особливо важливе для власників сайтів) оригінальні матеріали від їх копій. Проте і тут розробникам пошукових систем постають певні проблеми неоднорідність структури гіперпосилань і її свідоме спотворенням пошуковими спамерами.

- Кількість сторінок сайту, що мають високу відповідність запиту.

Результуюча вага документа розраховується по спеціальному алгоритму, що враховує поєднання різних критеріїв. Чим більшу вагу має документ, тим більш точно він відповідає пошуковому запиту (більш релевантний) і тим вище буде його місце в рейтингу результатів.

В деяких пошукових системах, наприклад Апорт  та Рамблер для підвищення якості рейтингу  використовування інформація з каталогу пошукової системи. Ця інформація має високий степінь достовірності, оскільки складена або перевірена професіонально підготовленими редакторами. Ще одним перспективним напрямком підвищення якості пошуку в Апорті є прагнення до обліку максимальної кількості критеріїв рейтингу в їх взаємозв'язку. Зокрема, помітну перевагу одержують документи, що мають високу вагу відразу по декількох незалежних критеріях. Наприклад, по частотності слів запиту в тексті і зваженому індексу цитування.

Крім того,  на сторінці результатів запиту знаходиться достатньо багато управляючих елементів призначених для уточнення пошуку. Зразок типової сторінки відображення результатів запиту пошукової системи Апорт показано на рис. 4.39.

Якщо необхідно обмежити зону пошуку окремою темою або рубрикою то необхідно перейти по гіперпосиланню на відповідну Web-сторінку. Після цього необхідно активізувати перемикач “Шукати в розділі” або “Шукати по регіону”. Після цього пошук буде вестись в повнотекстовій базі даних. В більшості пошукових систем  повнотекстова база даних містить:

- Текст, що відображається користувачеві при перегляді сайту у вікні браузеру.

- Опис сайту, визначений при його реєстрації в пошуковій системі.

Опис сайту, визначений за допомогою спеціальних тегів.Практика показує, що використання означених управляючих елементів (гіперпосилань, перемикачів) не дозволяє достатньо гнучко проводити пошук інформації. Підвищити гнучкість  пошуку можливо за рахунок правильно сформованих пошукових запитів. Розглянемо методику їх створення. Кожний запит, адресований пошуковій системі, обробляється відповідно до правил мови запитів.

1 - закладки для переходу між різними видами пошуку, 2 - посилання на результати пошуку по ресурсам новин для заданого запиту (в дужках вказано число знайдених новин), 3 - посилання на новину, яка найбільш точно відповідає заданому запиту, 4 - число результатів знайдений сайтів, 5 - назва і посилання на знайдений сайт, 5 - опис сайту, 6 - нзва і адреса самого відповідного запиту документа на сайті, 7 - цитати з повного тексту документа з виділенням слів запиту, 8 - посилання на збережений текст документа (використовується, якщо сайт не доступний), 9 - адреса знайденого сайту, 10 - рубрики з каталога на тему запиту, 11 - посилання на результати пошуку по даному сайту (всі знайдені сторінки), 12 - країна або регіон, до якого належить знайдений сайт. При кліці по посиланню буде проведений пошук за запитом з обмеженням області пошуку сайтами з цього регіону,  13 - посилання на рубрику каталога, до якої відноситься знайдений сайт (якщо сайт опублікований в каталозі), 14 - країна або регіон, до якого відноситься ваша IP-адреса. При кліці по посиланню буде проведений пошук за запитом з обмеженням області пошуку сайтами з цього регіону, 15 - контекстна реклама.

Звичайно запит складається з одного або декількох слів, наприклад: ‘мікропроцесори компанії Intel’. По такому запиту знаходяться документи, в яких зустрічаються всі слова запиту. Є, правда, обмежене число службових слів  які в запиті, як правило, ігноруються. Це відбувається по причині того, що слова не несуть самі по собі змістовного навантаження. Наприклад, за запитом: ‘яблука на снігу’ будуть знайдені документи, в яких зустрічаються одночасно два слова: ‘яблуко’ і ‘сніг’. В більшості пошукових систем незалежно від того, в якій граматичній формі записане слово в запиті, воно знаходиться в документах у всіх своїх формах. Наприклад, за запитом: ‘людина йшла’ будуть знайдені серед інших і документи, що містять текст ‘люди йдуть’.

Деякі слова і символи трактуються як оператори мови запитів і обробляються спеціальним чином. Таким чином, пошуковий запит може складатися з одного або декількох слів, в ньому можуть бути присутні розділові знаки та спеціальні службові символи (оператори).  Пошук операторів в документі не проводиться, вони служать лише інструкцією пошуковій машині. Всі оператори пошукової машини бінарні, тобто мають ліву і праву частину, кожна з яких також є запитом (що за умовчанням складається з одного слова). Для зміни області дії операторів (групування декількох слів запиту в аргумент оператора) застосовуються дужки і лапки. Фактично, мовою запитів описується деяка формула, яка використовується при пошуку - кожний з документів ‘зіставляється’ з нею, і результатом пошуку є тільки ті документи, які їй задовольняють. Наприклад, запиту ‘літак’задовольняють всі документи, в яких хоча б раз зустрілося слово ‘літак’в будь-якій формі. Запиту, що складається з декількох слів, задовольняють документи, що містять кожне з цих слів в будь-якій формі. Але для здійснення більш складних запитів необхідне знання мови запитів.

Як правило, регістр написання пошукових слів і операторів значення не має. Наприклад, будинок і БУДИНОК, Not і nOt сприймаються однаково. Але іноді, в цілях підвищення якості пошуку, регістр слів пошукового запиту береться до уваги. Наприклад, якщо запит складається з двох, трьох або чотирьох слів, кожне з яких написане з великої букви, то передбачається пошук по імені власному. Тоді автоматично проводиться зміна обмеження відстані між словами запиту із значення за умовчанням на величину (n-1)*2, де n - кількість слів запиту. Це дозволяє знаходити групу слів запиту, усередині якої є не більш одного ‘зайвого’ слова або розділового знаку. Наприклад, ‘Баден-Баден’, ‘Т. Шевченко’.

Існує деякий пріоритет виконання одних операторів над іншими. Наприклад, оператори AND і NOT традиційно мають більш високий пріоритет, ніж оператор OR. Тому запит з декількох слів при обробці спочатку групується по операторах AND і NOT, і лише потім по операторах OR. Змінити порядок угрупування можна за допомогою використання дужок.

По кожному слову запиту пошук ведеться з урахуванням правил словозміни відповідної мови. Відзначимо, що всі пошукові машини розуміють і розрізняють слова російської і англійської мов, а українські пошукові машини додатково розуміють і розрізняють слова української мови.  Пошук ведеться по всіх формах слова. Наприклад, при пошуку по слову 'людина' будуть також знайдені документи, що містять слова 'людині', 'людиною', 'людини'і навіть 'люди'. Щоб провести пошук тільки по одній певній формі слова, потрібно узяти його в подвійні лапки або скористатися пошуком точної фрази в розширеному пошуку.

Для пошуку цитат використовують подвійні лапки. Слова запиту, укладеного в подвійні лапки, шукаються в документах саме в тому порядку, в якому вони представлені в запиті. Таким чином, подвійні лапки можна використовувати і просто для пошуку слова в заданій формі. Наприклад, запиту 'літак “заправився” посадка'задовольняє документ, що містить текст '... літак вчинив посадку і заправився ...', і не задовольняє документ, що містить '.. літак вчинив посадку, щоб заправитися ...'.

Розглянемо деякі приклади використання логічних операторів AND,  OR, NOT . Два запити, сполучені оператором AND (логічне І) утворюють складний запит, якому відповідають тільки ті документи, які одночасно задовольняють обом цим запитам. Іншими словами, за запитом ‘собака AND кішка’знайдуться тільки ті документи, які містять і слово ‘собака’, і слово ‘кішка’.

Складному запиту, що складається з двох запитів, сполучених оператором OR (логічне АБО) відповідають всі документи, що задовольняють хоча б одному з цих двох запитів. За запитом ‘собака OR кішка’знайдуться документи, в яких є хоча б одне із слів ‘собака’або ‘кішка’ (або обидва ці слова разом).

Оператор NOT (логічне НІ) утворює запит, якому відповідають документи, що задовольняють лівій частині запиту і не задовольняють правій частині. Так результатом пошуку за запитом ‘собака NOT кішка’будуть всі документи, в яких є слово ‘собака’ і немає слова ‘кішка’.

Якщо оператор явно не вказаний, використовується оператор за умовчанням AND: знаходяться тільки документи, що містять всі слова запиту. Так, наприклад, запит ‘інформація технології кредит’ буде відповідати ‘інформація AND технології AND кредит’.На сторінці Розширеного пошуку оператор за умовчанням можна замінити на OR (шукати слова запиту: хоча б одне).

Якщо запит складений з одного або декількох слів без вживання операторів і конструкцій мови запитів, то будуть знайдені документи, в яких зустрічаються всі слова запиту. При цьому для кожного запиту завжди існує так зване обмеження контексту - позитивне число, за умовчанням воно дорівнює відстані в 40 слів. Документ, в якому зустрілися всі слова запиту, буде виданий тільки в тому випадку, якщо відстань між словами запиту буде менше цього числа. Наприклад, за запитом ‘червона армія’ будуть знайдені ті документи, в яких слова ‘червона’і ‘армія’хоча б один раз зустрінуться на відстані менш ніж в 40 словах один від одного.

Значення обмеження контексту можна змінювати конструкцією '(число, запит)', де число - будь-яке позитивне число, запит - будь-який коректний з погляду пошукової машини запит, що складається більш ніж з одного слова. Таким чином, за запитом '(2, червона армія)' знайдуться тільки ті документи, в яких між словами 'червона'і 'армія'хоча б раз не зустрінеться жодного слова (оскільки лише у разі їх безпосереднього сусідства різниця в порядкових номерах слів менше 2, тобто рівна 1).

Як вже було відзначено, за умовчанням деякі слова і символи виключаються із запиту у зв'язку з їх малою інформативністю. Це так звані стоп-слова. Присутність цих слів може уповільнити пошук і негативно вплинути на повноту результатів. Але іноді присутність цих стоп-слів необхідна. Тоді запит потрібно узяти в подвійні лапки або скористатися пошуком точної фрази в розширеному пошуку.

При побудові запитів іноді виникає необхідність об'єднання слів запиту в групи, які будуть аргументами деякого оператора. Такі групи повинні знаходитися в дужках. Частина запиту, яка знаходиться в дужках, сама є запитом, і на неї розповсюджуються правила мови побудови запитів. Використання дужок дозволяє будувати вкладені запити і передавати їх операторам як аргументи, а також перекривати пріоритети операторів, прийняті за умовчанням. Запит без дужок 'машина літак | аеродром'еквівалентний запиту 'машина AND літак OR аеродром'і, відповідно до пріоритетів операторів, означає “знайти документи, що містять або слова 'машина'і 'літак', або слово 'аеродром'”. А запит з дужками 'машина (літак | аеродром)'рівносильний запиту 'машина AND (літак OR аеродром)', що означає “знайти документи, що містять слово 'машина' і одне із слів 'літак' або 'аэродром'”.

Перелік та призначення груп операторів наведений в табл. 4.13-4.16.

Таблиця 4.13

Логічні оператори

Назва

Запис

Призначення

1

2

3

І

AND
&
+

Оператор логічне І використовується по умовчанню.  Його можна опускати. Запит 'швидкий пошук' повністю еквівалентний запиту 'швидкий AND пошук'. По будь-якому з цих запитів будуть знайдені документи, що містять обидва, слова.

АБО

OR
|

Оператор логічне АБО дозволяє шукати документи, що містять хоча б один з операндів. За запитом 'швидкий OR пошук' будуть знайдені документи, що містять будь-яке з вказаних слів або обидва слова одночасно.

НІ

NOT
~

Оператор логічне НІ обмежує пошук документами, що не містять слово, вказане після оператора. За запитом 'фрукти NOT яблука' будуть знайдені документи, що містять слово 'фрукти', але що не містять слово 'яблука'.

( )

 

Круглі дужки задають порядок дії логічних операторів. За запитом швидкий АБО якісний пошук будуть видані документи, що містять або слово 'швидкий', або одночасно слова 'якісний' і 'пошук' (оператор І діє першим). За запитом (швидкий АБО якісний) пошук будуть видані документи, де зустрічаються одночасно слова 'швидкий' 'пошук', або 'якісний' і 'пошук'.

Таблиця 4.14

Оператори визначення відстані

Оператор

Запис

Призначення

1

2

3

"

' '

Подвійні або одинарні лапки дозволяють знаходити словосполучення, вказане в них, або близьке до нього. Останнє обмеження  пов'язана з двома обставинами. По-перше, стоп-слова в лапках ігноруються, як і в звичайному запиті. По-друге, граматична форма слів також лапками не фіксується. Приклад: за запитом яблука на снігу" будуть знайдені документи, що містять наступні фрагменти: "яблука на снігу", "яблука і сніг", "яблукам під снігом", "яблуко сніг" і т.і.

сл2
(...)

с2(...)
w2(...)
[2,...]

Обмеження відстані в словах (двійка вказана як приклад). Якщо ви хочете обумовити, щоб задані вами слова зустрічалися, скажімо, в межах 5 слів, то треба написати: сл5(тато мама син). При цьому будуть знайдені документи, де між словами "тато", "мама" і "син" знаходиться не більше двох інших слів (тобто загальне число слів у фрагменті не більше 5). Порядок, в якому зустрічаються задані слова, не важливий

Таблиця 4.15

Оператори пошуку по адресам

Оператор

Синоніми

Призначення

url=

url:

Даний оператор дозволяє отримати список документів, проіндексованих пошуковою системою Апортом на заданому сайті. Например, по запиту URL=www.intel.ua будуть видані все документи, проіндексовані пошуковою системою на сайті www.intel.ua.

Таблиця 4.16

Оператори пошуку по полям

Оператор

Призначення

1

2

title=

Вказане після знаку рівності слово або конструкція в круглих дужках повинні шукатися в заголовках документів (перед круглими дужками знак рівності можна опускати). По запиту title=(тато або мама) будуть знайдені документи, що містять в заголовку слово тато або слово мама, або обидва слова одночасне.

keywords=

Вказане після знаку рівності слово або конструкція в круглих дужках повинні шукатися в полі META KEYWORDS документів (перед круглими дужками знак рівності можна опускати). По запиту keywords(тато і мама) будуть знайдені документи, для яких автор в ключових словах вказав обидва слова: тато і мама.

alt=

Вказане після знаку рівності слово або конструкція в круглих дужках повинні шукатися в полях ALT (коментарі до картинок). По запиту alt(Біл Гейтс) будуть знайдені документи, в яких є картинка з коментарем, що містить як мінімум два слова: Біл і Гейтс.

anchor=

Вказане після знаку рівності слово або конструкція в круглих дужках повинні шукатися в тексті посилань. По запиту anchor=(ненавиджу Internet) будуть знайдені документи, в тексті посилань на які, зустрічаються обидва слова: ненавидіти і Internet.

description=

Вказане після знаку рівності слово або конструкція в круглих дужках повинні шукатися в тексті описів сайтів каталогу пошукової системи і в полі META DESCRIPTION Web-документу. По запиту description=(“оцтова кислота") будуть знайдені кореневі документи сайтів, в тексті описів яких зустрічається словосполучення оцетва кислота, а також документи, в яких це словосполучення зустрічається в полі META DESCRIPTION.

text=

Вказане після знаку рівності слово або конструкція в круглих дужках повинні шукатися тільки в звичайному тексті. Відзначимо, що за умовчанням слова запиту шукаються як в тексті, так і у всіх вказаних вище полях. По запиту text=(яблуко or груша) будуть знайдені документи, в яких будь-яке з вказаних слів зустрічається в межах основного тексту документу.

Більшість пошукових систем поки не підтримують пошук рядків з використанням метасимволів ('*' та  '?'), які звичайно використовуються в значенні "будь-яка послідовність символів" і "довільний одиночний символ". Проте, ці оператори зарезервовані для подібного використання в майбутньому.

Якщо запит складається з декількох слів, і при цьому деякі з них взагалі не вдалося знайти в Internetі, то видаються результати пошуку по частковому запиту (з запиту відсутні в Internetі слова виключені). При цьому на сторінці результатів пошуку видається відповідна діагностика.

Цікавою особливістю пошукової системи Рамблер є можливість шукати сторінки, на яких розміщені лічильники Top100, TopShop, TopList, SpyLog, а також HotLog. Для того, щоб знайти в Internet всі сторінки, на яких розміщений лічильник із заданим ідентификатором, необхідно використовувати оператор ${counter=ID}, де counter - назва лічильника (top100, topshop, toplist, spylog або hotlog), а ID - номер лічильника (ідентифікатор ресурсу).

Наприклад, для того, щоб знайти всі сторінки розділу Рамблер-листівки (ідентифікатор Top100 - 193680), необхідно подати Рамблеру запит ${top100=193680}.

Наведемо загальні поради формування пошукових запитів.

1. Необхідно продумати концепт запиту. В найзагальнішому вигляді концепт це значення, яке користувач вкладає в запит. Питання в тому, яким чином відобразити те, що користувач хоче відшукати в ключові слова запиту? Можна спробувати відшукати інформацію в лоб - просто ввівши ключові слова, які відповідають запиту. Як правило, цього достатньо. Якщо ж результатів пошуку немає зовсім або вони не точні, то потрібно спробувати переформулювати запит, тобто використовувати інші ключові слова, синоніми, які відповідають змістовному значенню пошуку.  Можливий і інший підхід. Документи, які містять інформацію, що цікавить користувача, можуть не бути присутні в базі пошукової системи Мети. Однак вони є все таки можуть бути наявні Internetі. Для того, щоб їх знайти необхідно використовувати ключові слова, що відповідають більш загальним категоріям. Наприклад, якщо потрібно знайти  конкретний український закон, то краще шукати сервера, присвячені українському законодавству. Інший приклад, якщо необхідно знайти поштову адресу якої-небудь організації, то можливо здійснити пошук сайту з розміщеним бізнес каталогом.

2. Необхідно продумати ключову фразу, що відповідає концепту запиту. В  своїх розмовах люди використовують багато стійких виразів та словосполучень. Автори Web-сайтів користуються такими ж поєднаннями слів в своїх документах. Тому, запит з використанням стійких фраз і виразів, що відносяться до теми пошуку - один з важливих способів швидко одержати якісний перелік потрібних матеріалів. Іншими словами, потрібно шукати не слова, а словосполучення. Для пошуку в подібних випадках потрібно використовувати лапки (дужки) або оператори відстані. Наприклад, по запиту “Вік живи”  пошукова система з великою ймовірністю видасть сторінки, де міститься прислів'я "Вік живи - століття вчися" і його варіації. При цьому в короткій анотації ресурсу буде відображенасаме ключова фраза. Запити, що включають фрази "Комп'ютерна периферія", "курс валют", "прайс-лист" і т.і. значно скорочують загальне число знайдених документів і дозволяють уточнити пошук.  При цьому слід враховувати, що основне змістовне навантаження в мові несуть іменники. Важливо, що такий стан речей підтверджується аналізом ключових пошукових слів (метатегів), які прописує автор в описі web-сторінки. Основна маса цих ключових слів - іменники. Значно рідше використовуються додатки, і зовсім рідко дієслова та займенники. Нагадаємо, що саме відповідність ключових слів  та пошукового запиту є один із критеріїв формування рейтингу. Прикметники слід використовувати в запиті,  якщо користувач хоче знайти в Internet саме “голландський сир” або “зелене яблуко”. Дуже ефективний засіб для швидкого отримання точних результатів це  використання рідкісних слів. До таких слів можна віднести спеціальні терміни, назви місцевості, організації, імена людей і інше. Наприклад, полівінілхлорид, Пномпень, УКРГАЗПРОМ, Лорак і т.і. Використання точних слів відразу спрямовує пошук до потрібної тематики.

4. Необхідно оптимально визначити  кількість слів в пошуковому запиті. Для отримання інформативних результатів пошуку важливо поставити коректний запит. Результати пошуку на дуже короткий запит будуть неконкретними, оскільки неясно, що саме мається на увазі. Наприклад, в результатах пошуку за запитом "Київ" буде представлена різнотематична та різнопланова інформація: сайти організацій, довідково-інформаційні сайти, дошки оголошень, каталоги посилань і ін. Зате запит "Історія Києва" явно говорити про те, що потрібно знайти, тому і результат пошуку буде адекватними. Однак занадто довга ключова фраза може призвести до того, що пошукова машина не зможе нічого підібрати для даного запиту. Отже в випадку, коли потрібна загальна інформація, що має хоч якесь відношення до теми, достатньо одного слова. Напевно, серед декількох сотень документів, які видасть пошукова система буде документ, який відповідає темі пошуку. Проте, де буде знаходитись цей документ - в першій десятці результатів або на тисячному місці справа випадку.  Для того, щоб одержати підбірку результатів, яка буде більш точна відповідати темі запиту краще шукати відразу за декількома словами, що характеризують запит більш детально.  Таким чином в більшості випадків оптимальним буде запит, що , складаються з 2-3 слів, в яких чітко сформульовані об'єкти пошуку. На нього пошукова машина видасть коректні та очікувані результати. Відзначимо, що за статистикою користувачі зарубіжних пошукових систем використовують в середньому 1,5 слова в запиті. Наші користувачі більш "багатослівні" - 2,5 слова на один запит.
5. Коректно використовуйте багатомовні запити. По статистиці більша частина запитів до українських пошукових систем надходить на російській мові. При цьому пошукова база пошукових систем містить документи на російській, українській і англійській мовах. Подібна багатомовність задає свої особливості пошуку для українських користувачів. Наприклад, для того, щоб одержати повний список сторінок, що мають відношення до освіти, необхідно крім слова "освіта" задіяти також слова "образование" і "education". Водночас багатомовні запити розширюють повноту пошуку.  Їх використання найкоротший шлях, для одержання гіперпосилань на весь масив документів, що відповідають заданій темі.  Звичайно, великий масив відповідей буде містити однакову інформацію, яка просто представлена на різних мовах. Проте, результати досліджень проведені колективом пошукової системи Мета показують, що значна кількість сторінок не перекриваються. Тобто ці сторінки містять інформацію, яка потрапляє в список результатів пошуку тільки при запиті на певній мові. Певні труднощі багатомовного пошуку пов'язані з омонімами. Однакове написання різних по значенню слів (омонімів) при пошуку за ключовими словами може привести до появи в списку відповідей досить несподіваних результатів. Наприклад, по слову "лист" додатково до омонімії російської мови: "лист каштана" і "лист бумаги", при пошуку на Меті додається ще значення "письмо - лист" з української мови. Тобто крім омонімії в окремо російській і українських мовах, з'являється ще російсько-українська омонімія. Частково зняти подібну неоднозначність можна за допомогою оператора нормальної форми (поставити перед "підозрілим" словом в запиті знак оклику). Якщо ж використовувати пошук по фразі, омоніми практично не впливають на формування результатів пошуку.

6. Використовуйте “Розширений пошук” для того, щоб наперед настроїти зручний вид результатів пошуку. Нагадаємо, що по умовчанню результати пошуку відображаються в порядку відповідності всіх сторінок сайту пошуковому запиту. В більшості пошукових систем “Розширений пошук” дозволяє переключитись на режим формування рейтингу по відповідності окремих сторінок або по даті (як правило спочатку рейтингу знаходяться більш нові документи). Для цього необхідно скористатися відповідним гіперпосиланням в рядку “Сортувати по...”, яке знаходиться в верхній або нижній частині сторінки результатів пошуку.

7. Для звуження простору швидкості пошуку специфічної інформації до якої відносяться сайти присвячені нерухомості, рефератам, мелодіям для мобільних телефонів, бібліотекам, комп'ютерам і т.д., доцільно скористатись тематичним пошуком по додатковим базам пошукових систем. Наприклад Апорт містить більш ніж 20 баз додаткового пошуку. Більшість пошукових систем містить добре структурований каталог з можливістю пошуку по сайтам в середині тематичних рубрик. Відповідність результатів пошуку по сайтам в середині каталогу запитам, які узгоджуються з тематикою рубрики, набагато більш висока, ніж просто пошук по Internetу. Причиною цього є те, що в рубриках каталогу знаходяться тільки сайти з перевіреним модераторами тематичним контентом.

8. Для пошуку аудіо інформації доцільно використовувати спеціальний вид пошуку по аудіо файлам  (*.mp3, *.midi, *.ra та ін.). Доведено, що даний вид пошуку набагато більш ефективний ніж звичайний пошук. Для переходу на сторінку пошуку аудіо файлів слід скористатись відповідним гіперпосиланням, розміщеним на головній сторінці пошукової системи.

Розглянемо питання, що найчастіше виникають у користувачів   при формуванні пошукових запитів.

1. Що таке нестрогий пошук?

Механізм "нестрогого пошуку" застосовується в пошукових системах у випадках, коли не були одержані результати точно відповідні даному запиту. Наприклад, запиту, що складається з великої кількості слів (більше трьох), знайдена недостатня кількість документів в базі. В цьому випадку виконується додатковий, переформульований (змінений) запит до пошукової машини за додатковими документами, які можуть бути цікаві користувачу. Даний процес є ітеративним, тобто продовжується до тих пір, поки, або не буде знайдена достатня кількість документів, або пошукова система вичерпає можливості зміни запитів. Як правило, вистачає одного переформульованого запиту для знаходження необхідної кількості документів. Документи, одержані за допомогою "нестрогого" і основного пошуків, як правило розділені полем "Можливо, що наступні документи містять не всі слова пошукового запиту".

Механізм "нестрогого пошуку" певним чином збільшує навантаження на пошукові сервери і підключається до основного пошуку тільки у разі наявності вільних апаратних ресурсів. Тому результати пошуку в різний час на одні і ті ж запити можуть розрізнятися.

2. Як зробити, щоб за запитом видавався не окремий фрейм, а основна сторінка сайту?

Для того, щоб при пошуку зареєстрованого сайту, що складається з фреймів, побачити основну сторінку (<frameset>), потрібно перейти по гіперпосиланню “Див. всі документи з сайту” або по посиланню “На тому ж сайті (всього знайдено документів: ...)”.

3. Яка швидкість оновлення бази пошукових систем?

Це залежить від багатьох чинників (наприклад, від швидкості, з якою роботу пошукової системи відповідають серверb, на яких розміщені Web-сайти). Наприклад, в середньому робот Рамблера за добу збирає інформацію про чотири мільйони сторінок.

Контрольні запитання

  1. Чим ускладнюється пошук інформації в мереж Internet?

  2. Назвіть принципи формування бази даних пошукової системи?

  3. Що таке пошукова система?

  4. Назвіть адреси вітчизняних пошукових систем?

  5. Назвіть адреси пошукови систем призначених для пошуку інформації в російськомовній зоні Internet?

  6. Назвіть адресу пошукової системи призначеної для пошуку інформації по всій мережі Internet?

  7. Як можна здійснити доступ до пошукової системи?

  8. Чи можна інтегрувати пошукову систему в браузер?

  9. Яка пошукова система в своїй базі містить інформацію про всі сайти мережі Internet?

  10.  Назвіть типові обмеження пошуку сайтів?

  11.  Навіщо використовується пошук у вже знайдених сайтах?

  12.  Що є результатом роботи пошукової системи?

  13.  Яка методика використання пошукової системи?

  14.  Як швидко встановити головну Web-сторінку пошукової системи в якості домашньої сторінки браузеру?

  15.  Що таке рейтинг сайтів?

  16.  Як формується рейтинг сайтів в пошуковій системі?

  17.  Як власники сайтів можуть впливати на рейтинг сайтів?

  18.  Чому рейтинг сайтів такий важливий для власників сайтів?

  19.  Що таке мова пошукових запитів?

  20.  Скільки слів доцільно використовувати в пошуковому запиті?

  21.  Що таке оператори мови запитів?

  22. Назвіть призначення логічних операторів мови запитів?

  23.  Навіщо в поуковому запиті можуть використовуватись дужки?

  24. Як обмежити пошук слова тільки його заданою формою?

  25. Яке призначення оператору AND?

З повагою ІЦ “KURSOVIKS”!