Лабораторна робота 8 на тему Пошук інформації в мережі ІНТЕРНЕТ
« НазадЛабораторна робота №8Тема: Пошук інформації в мережі ІНТЕРНЕТ. Мета:Навчитися ефективному використанні пошукових систем Інтернету для забезпечення роботи менеджера.
Питання для повторення
Короткі теоретичні відомостіПроблема пошуку і засобу його організаціїГігантські об'єми доступної в Інтернет інформації, що безперервно збільшуються, зокрема оперативною, робить проблему пошуку необхідних відомостей вельми актуальною і складною. Швидкість пошуку потрібної інформації визначає в значній мірі професіоналізм користувача Інтернет. Для автоматизації цього завдання розроблені різні, як зарубіжні, так і вітчизняні системи пошуку, що є Web-страницы спеціального вигляду. Проте, не дивлячись на наявність численних засобів автоматизації пошуку, це завдання залишається достатньо трудомістким, таким, що вимагає від користувача певного досвіду, інтуїції, знання термінології, використовуваної в його наочній області. За оцінкою, опублікованою в журналі Nature від 8 липня 1999 р., число публічно індексованих Web-страниц складало 800 млн. Через рік автор дослідження (Стів Лоуренс з інституту NEC Research Institute) вважав, що їх число збільшилося майже удвічі – до 1,5 млрд. Навіть кращі пошукові механізми індексують не більше ніж одну сторінку з шести. Для того, щоб витягувати корисну інформацію з мережі Інтернет, потрібно знати, де і як вести пошук. Наявний в Internet Explorer інструмент Пошук спрощує звернення до засобів пошуку, позбавляючи від знання адрес пошукових машин. Проте краще безпосередньо звертатися до пошукових систем, завантажуючи відповідну сторінку. За способом організації пошуку і по можливостях, що надаються, всі засоби пошуку можуть бути умовно розбиті на наступні групи:
Каталоги і бази данихКаталоги в WWW аналогічні систематичним бібліотечним каталогам. Пошук по каталогах полягає в послідовному русі за ієрархічним списком посилань, званих рубриками або категоріями. На першій сторінці каталога міститься посилання на крупні теми, наприклад, Культура і мистецтво; Медицина і здоров'я; Суспільство і політика; Бізнес і економіка; Розваги і ін. Клацання миші на відповідному посиланні (категорії) відкриває сторінку, що містить посилання, що деталізують вибрану тему (рубрику). Рухаючись вниз по деталізуючих категоріях, можна знайти сторінку з потрібною інформацією. На кожній сторінці, що відкривається при русі по каталогу тим або іншим способом, указується послідовність проглянутих вкладених рубрик, наприклад, Діловий мир: Фінанси: Аналітика і так далі Всі каталоги створюються і підтримуються в актуальному стані уручну фахівцями, аналогічно тому, як бібліографію складають і підтримують бібліотечні каталоги. Опис документа робиться або укладачами каталога, або автором. Завдяки цьому, зміст сторінок, включених в каталог, найадекватніше відповідає рубриці, до якої вони віднесені. Але, враховуючи швидкість поповнення і зміни інформації в Інтернет, «ручний» спосіб ведення каталогів не дозволяє рівноцінно відображати реальний стан ресурсів Інтернет на дану тему. Пошукові системи (пошукові машини, пошукові сервери, пошукові роботи)Існують десятки великих і тисячі малих і спеціалізованих Web-узлов, призначених для пошуку в Інтернеті. Засоби пошуку цієї групи дозволять користувачеві по певних правилах сформулювати вимоги до необхідної йому інформації (за допомогою мови запитів створити запит). Після цього машина пошуку автоматично проглядає документи на контрольованих (індексованих) нею сайтах і відбирає ті з них, які, «на думку» пошукового сервера, відповідають сформульованим користувачем вимогам (релевантны запиту). У пошукових вузлах використовуються власні індекси Інтернету, що постійно оновлюються особливими програмами, званими павуками (spiders). Програма-павук обстежує Web, перевіряючи кожне посилання на даній сторінці, потім на сторінках, що адресуються посиланнями, і т. д., і повідомляє свого власника зведення про всі сторінки для подальшої індексації. В результаті пошуку створюється одна або декілька сторінок, що містять посилання на релевантних запиту документи (Web-страницы). Для кожного посилання зазвичай також указуються дата створення документа, його об'єм, ступінь відповідності релевантности запиту, фрагменти тексту, що характеризують зміст документа. Клацання мишею на такому посиланні дозволяє завантажити сторінку, що зацікавила. У разі дуже великої кількості знайдених документів можна уточнити запит і відповідно до нього повторити пошук, але тільки серед відібраних сторінок (такий пошук в різних машинах називається по-різному, але звичайно це – шукати в знайденому). У ряді машин пошуку можна певним способом поміняти посилання на сторінку, зміст якої найбільшою мірою задовольняє вашим потребам, і повторити пошук, зажадавши шукати схожі. Гідність автоматизованого пошуку полягає в тому, що він забезпечує проглядання дуже великих об'ємів інформації, що є в Інтернет в даний момент. Проте складність точного опису запиту, адекватно того, що відображає ваші інформаційні потреби, а також ще більша складність завдання автоматичного визначення ступеня відповідності вашому запиту сторінок, що проглядаються, приводить до того, що кількість сторінок, відібраних «з першого заходу», як правило, або дуже мало, або надмірно велике. В цілому пошук з використанням пошукової машини є ітераційним (багатоходовою) процесом, в результаті якого поступово уточнюється форма запиту. Метапошукові системиЯк наголошувалося вище, будь-яка пошукова система проглядає певний набір серверів і відбирає документи відповідно до властивих нею критеріїв. У результаті пошук різними системами за одними і тими ж ключовими словами дає різні результати. Це привело до ідеї створення так званих метапошукових (або мультипошукових) систем, які самі нічого не шукають, але звертаються за допомогою відразу до декількох пошукових систем. Кожна з метапошукових систем має свою мову запитів. Система перекладає сформульований на її мові запит мовами запитів, використовуваними кожною машиною пошуку. Далі, результати пошуку всіма системами об'єднуються і представляються у відповідній формі. Природно, що пошук за допомогою метапоисковых систем займає більший час в порівнянні із звичайними системами пошуку. Огляд найбільш популярних пошукових систем У Інтернет є велика кількість пошукових систем, і кожен користувач орієнтується на ту, до якої він звик або яку йому порадили його колеги. Скористаємося короткою характеристикою найбільш популярних пошукових систем, яка приводиться на одному з сайтів. 1. Google (www.google.com) найшвидша і найбільша пошукова система. Проїндексировано більше 1,3 мільярдів сторінок (з них повністю - небагато чим більше 700 мільйонів, про останніх відома тільки адреса і текст посилання). Нормально шукає по російськомовних ресурсах (зрозуміло, без словоформ), є можливість вибрати мову інтерфейсу. Можна включать/исключать результати з певних сайтів і/або доменів. На відміну від більшості пошукових систем, Google оцінює популярність ресурсу по кількості посилань, ведучих до нього з інших сторінок. Присутній тематично орієнтований пошук - Apple Macintosh, BSD UNIX, Linux, уряд США і University searches - пошук в ресурсах провідних наукових і учбових інститутів. 2. Яndex (www.yandex.ru) Краща з пошукових систем вітчизняного виробництва. Індексує в основному російськомовні ресурси, при цьому по можливостях не поступається зарубіжним системам. Пошук можна здійснювати точно або в будь-яких словоформах, з обмеженням по даті, з вказівкою сайту або його піддиректорії. Можна вести пошук з урахуванням так званого індексу цитованості, шукати зображення, скрипти, аплети; задавати мову документа. Потрібні посилання, як правило, виявляються вже в першій десятці результатів. Має "полегшену" версію (з мінімумом елементів дизайну) на http://www.ya.ru. 3. AltaVista (www.altavista.com) Надає велике розширення критеріїв пошуку: у Advanced search є вибір відрізка часу, до якого відноситься дата створення або зміни ресурсу, підтримка 25 мов; присутня можливість видачі одного результату на сайт (це звужує круг пошуку без збитку для якості). Power search має стандартний набір можливостей. До недавнього часу AV була крупним порталом, але по причинах фінансового (і не тільки) характеру значно скоротила кількість сервісів. 4. Yahoo! (www.yahoo.com) Один з перших пошукових серверів в Інтернет. Крім стандартного набору функцій, дозволяє відбирати ресурси по даті (4 року, 1, 3, 6 місяців, тиждень, 1, 3 дні). Підтримує можливість вказівки знаку "*" замість будь-якої послідовності символів в ключових словах. На Yahoo! складений великий структурований каталог категорій (categories). Спочатку пошук здійснюється в них, потім у власному архіві, потім - з використанням системи Google. Пошук в категоріях дає добрі результати - їх небагато і відповідність хороша. 5. Lycos (www.lycos.com) Останнім часом - одна з найпопулярніших систем. В той же час ніяких особливих можливостей вона не надає - "AND" "OR", пошук фраз, обов'язкова присутність/відсутність слова; у розширених можливостях - пошук в назві, URL, імені хоста і/або назві домена; 25 мов, включаючи російський, - словом, весь "загальноприйнятий" набір. Можна вказати тип змісту ресурсу - авто, книги, ftp, download, новини і так далі Очевидно, популярність Lycos - наслідок масштабу цього крупного проекту. 6. Рамблер (www.rambler.ru) До недавнього часу найвідоміша російська пошукова система. Розширений пошук не дозволяє шукати фрази, а звичайний пошук до лютого цього року рідко видавав прийнятні результати. З лютого в цій системі використовується покращуваний механізм пошуку, змінився дизайн, але за якістю Rambler все одно не порівнявся з Яндексом і Апортом (на думку автора, провідного аналіз пошукових систем). На сайті присутній рейтинг-каталог ресурсів Rambler Top 100, одне з визнаних джерел статистичної інформації про інтернет-проекти. 7. Апорт (www.aport.ru) Інший хороший російський пошуковий сервер. Пошук ведеться по тексту (тільки у всіх словоформах) і по URL, з використанням логічних операторів і оператора "." (проте стоп-слова у фразі все одно ігноруються), по даті і в окремих полях (назва, опис і так далі), підтримуються мета-символы * і ! Представлення результатів пошуку найдобріше оформлене в порівнянні з рештою росіян пошуковими машинами. Деякі сумніви викликає дизайн головної сторінки, яка явно переобтяжена інформацією. Є трохи більш "легка" версія на http://aport.ru. Як вибрати пошукову машинуПри пошуку в Інтернет важливі дві складові - повнота (нічого не втрачено) і точність (не знайдено нічого зайвого). Звичайно це все називають одним словом - релевантность, тобто відповідність відповіді питанню. 1. Обхват і глибина Під обхватом мається на увазі об'єм бази пошукової машини, який вимірюється трьома показниками – загальним об'ємом проіндексованої інформації, кількістю унікальних серверів і кількістю унікальних документів. Під глибиною розуміється – чи існує обмеження на кількість сторінок або на глибину вкладеності директорій на одному сервері. Як перевірити: Деякі машини пишуть на своєму сайті статистику робота. Але можна перевірити і самому – треба задати декілька пошукових запитів, що складаються з одного слова (щоб виключити вплив мови запитів, зокрема – різного трактования пропуску), і при цьому дивитися на статистику результатів, що видається машиною, – зазвичай на початку списку вказано, скільки все було знайдено документів. Крім того, що слова повинні бути з різних областей, добре ще узяти слова різних вагів – рідкісні, «середні» і «важкі» (частотні), і порівняти кількість знайденого. Важкі слова, зокрема, тестують полнотекстовость (індексацію всіх слів документа) пошукової машини. Глибину ходіння робота перевірити складніше - для цього треба узяти якісь сайти, наприклад, з розгалуженою структурою архівів, і перевірити, чи проиндексированы документи, на які можна потрапити тільки, наприклад, за 6 переходів по посиланнях. 2. Швидкість обходу і актуальність посилань Швидкість обходу Мережі показує, наскільки швидко відбувається індексація свіжододаного ресурсу і наскільки швидко оновлюється інформація в базі. Важливим показником якості пошукової машини (її робота) є не тільки захоплення нових територій: але і відстежування стану вже охоплених. Сервера зникають і з'являються, сторінки на них оновлюються. Посилання, які видає пошукова машина в списку знайденого, винні, по-перше, існувати, і, по-друге, їх зміст повинен відповідати запиту. Як перевірити: Об'єктивну інформацію можна отримати, проаналізувавши балки серверів – робот пошукової машини представляється зазвичай ім'ям своєї машини (або схожим чином), так що можна побачити, як часто він буває на сервері, скільки сторінок переглядає і так далі На жаль, зазвичай для вивчення буває доступна балка тільки свого сайту, тому залишається експериментальний спосіб. Для визначення швидкості обходу треба створити де-небудь сторіночку тексту, додати її в пошукові машини і подивитися, як швидко вона почне знаходитися. Або змінити вже наявну сторіночку. Для визначення актуальності посилань – перевірити документи хоч би на першій сторінці списку знайденого по декількох запитах. Повідомлення Not Found свідчить про те, що документ більш не існує. 3. Якість пошуку (суб'єктивний показник) Кожна пошукова машина має свої алгоритм сортування результатів пошуку. Чим ближче на початок списку виявляється потрібний вам документ, тим краще працює релевантность. Як перевірити: Тільки шляхом експерименту. Рекомендується для порівняння робити запити різної довжини. Можна також використовувати мову запитів, при цьому ті, кому небажання читати опис, можуть скористатися розгорненою сторінкою запиту («розширений пошук» в Апорті і Яндексе, «детальний запит» в Ремблере – варіанти перекладу російською мовою «advanced search»). Окрім релевантности, існують важливі призначені для користувача характеристики. 4. Швидкість пошуку Якщо пошукова машина відповідає поволі, працювати з нею неефективно. Варто додати, що видима користувачеві швидкість залежить не тільки від самої пошукової машини, але і від Інтернет-каналів. Як перевірити: Шляхом експерименту – треба пошукати запити різної довжини, різної <важкості> слів і в різний час доби (завантаження серверів істотно нерівномірне по добі, пік – близько трьох-чотирьох годинників дня). 5. Пошукові можливості (робота з мовою документа, мова запитів) Ще один пункт порівняння - що саме і як пошукова машина вносить до індексу. Повнотекстова пошукова машина індексує всі слова видимого користувачеві тексту. Наявність морфології дає можливість знаходити шукані слова у всіх відмінах або відмінюваннях. Окрім цього, в мові HTML існують теги, які також можуть оброблятися пошуковою машиною (заголовки, посилання, підписи до картинок і так далі). Мова запитів у вигляді стандартних логічних операторів (І, АБО, НЕ) є практично у всіх машин. Деякі уміють шукати словосполучення або слова на заданій відстані - це часто важливо для отримання розумного результату. Додатковою можливістю є пошук в зонах документа – заголовках, посиланнях, ключових словах (META KEYWORDS) і так далі Додаткова можливість мови запитів - природно-язиковий запит, який не вимагає знання операторів. Як перевірити: Зазвичай ця інформація публікується на сервері пошукової машини (у Help'е). Проте, рекомендується перевірити на реальних запитах, оскільки іноді бажане видається за дійсне. 6. Додаткові зручності Це - додаткові можливості, які надає користувачам пошукова машина. Сюди входить всілякі варіанти пошуку (спеціалізовані сторінки, пошук схожих документів, обмеження області пошуку), і список знайдених серверів, і пошук по датах і серверах, і зручний інтерфейс пошукової машини, і можливість його персоналізації. Як перевірити: Інформація може бути частково опублікована на сервері пошукової машини, але краще всього спробувати самому попрацювати з цими можливостями. Зрозуміло, що вказаний аналіз займе якийсь час. Окрім цього, пошукові машини, як і весь Інтернет, не стоять на місці. Проте, враховуючи, що пошук інформації – одна з важливих складових комп'ютерних технологій, цьому варто приділити достатню увагу – принаймні, не менше, ніж умінню працювати в локальній мережі. На Yandex.ru був проведений опит: навіщо потрібний Інтернет і чого в нім не вистачає (http://www.yandex.ru/polling/9.html). В порядку убування дані опиту розподілилися таким чином: Інтернет використовують як довідник (23,76%), інструмент дослідження (15,.45%), розвага (14,15%), і лише на четвертому місці - джерело новин (12,32%). Оптимістично прозвучало, що 10% користувачів завжди, а 73% часто вдається знайти потрібну інформацію. А не хапає в Інтернеті: інформації, хорошого пошуку і порядку (зокрема: впорядкованості, структури, структурної, структурованості, структуризації, а також системи, систематизації, системності, систематичності і систематизированности). Що таке запити до пошукових машин?Спрощено кажучи це той текст, який ви повинні написати в полі введення спеціальної форми на будь-якій пошуковій машині. Припустимо, що в полі введення тексту пошукової машини Yandex ви написали фразу [Любов зла полюбиш і]. Це і є запит до пошукової машини. По цьому запиту вона шукатиме документи, в яких зустрічаються слова, перераховані в цьому запиті. Якщо говорити про приведений приклад, то будуть знайдені документи, що містять наступні слова: любов, зла, полюбиш. Причому саме слова, а не точну фразу [Любов зла полюбиш і] як можна було б припустити. Звичайно, серед всіх знайдених документів будуть і ті, які містять цю фразу, але буде багато і інших. Але як бути, якщо потрібні документи саме з такою фразою і більше ніякі? Як добитися, щоб пошукові машини знаходили документи найбільшою мірою, що відповідають вашим потребам? На ці питання відповідають правила складання запитів або, інакше кажучи, синтаксис запитів. Синтаксис запитів – це набір правив, по яких пошукова машин трактує все, що ви пишіть в полі введення тексту. Безумовно, також як в кожній людській мові існують свої правила так само і у кожної пошукової системи свій синтаксис запитів. Спочатку розглянемо деякі загальні правила на прикладі декількох пошукових систем: Yandex, AltaVista, Google, Aport, потім детальніше одну з них – Yandex. Як пошукові машини трактують слова в запиті?Все ці п'ять машин шукають документи, що містять всі слова, які ви визначили в запиті. Але Yandex і AltaVista також знаходять документи, що містять частину слів або навіть одне слово із запиту. Правда документи, що містять не всі слова, розміщуються в кінці списку результатів, а на початку списку ті, в яких є всі слова. Yandex і Aport шукають документи, в яких слова запиту зустрічаються в будь-якій словоформі. Наприклад, за запитом [Любов зла полюбиш і] будуть знайдені документи із словами: любові, любов'ю і тому подібне Якщо потрібно знайти слово в певній формі і лише в цій, то перед словом (у запиті) потрібно поставити знак ! Наприклад: [!Любов !зла полюбиш і]. Всі описувані машини ігнорують союзи, приводи і тому подібне слова. Наприклад за запитом [Любов і голуби] союз І буде проігнорований. Як пошукові машини трактують деякі спеціальні символи в запиті?Лапки «.»Якщо група слів обмежена лапками ([«Любов зла полюбиш і»]), то: Yandex і AltaVista шукатимуть таку саму фразу, в тих же словоформах; Aport шукатиме цю фразу, але також і близьку до неї (з іншими союзами, з іншими словоформами). Знак +.Yandex, AltaVista і Aport трактують цей знак перед словом як вказівка на необхідність пошуку цього слова. Google в принципі діє також, але за задумом його розробників знак + повинен використовуватися для включення в запит союзів, приводів і тому подібне (які за умовчанням ігноруються). Приклад використання: [«+Любовь зла +полюбишь і»]. Знак -Має зворотну дію (виключає слово з результатів пошуку). Google не підтримує цей знак. Приклад використання: [«+Любовь -зла +полюбишь і»]. Знак |Указує на необхідність вибору одного з двох варіантів. Запит [любов | ненависть] означає «або любов або ненависть». Google не підтримує цей знак. Дужки (.)Відокремлюють одну частину запиту від іншої. Наприклад, запит [(любов | ненависть) +чувство] в перекладі на «російський» звучить як «знайти документи із словами відчуття і одне з двох: ненависть або любов». Тепер детальніше зупинимося на пошуковій машині Yandex. Пошукова машина YandexЯндекс – пошукова машина, здатна по вашому запиту знайти найбільш відповідні Web-страницы в російській частині мережі Інтернет. Яндекс щодня проглядає сотні тисяч Web-страниц у пошуках змін або нових посилань. Колекція посилань постійно росте. Яндекс не вимагає від вас знання спеціальних команд для пошуку. Досить набрати питання («де знайти дешеві комп'ютери» або «потрібні телефони Москви і московської області»), і ви отримаєте результат – список сторінок, де зустрічаються ці слова. Незалежно від того, в якій формі ви спожили слово в запиті, пошук враховує всі його форми по правилах російської мови. Наприклад, якщо заданий запит йти, то в результаті пошуку будуть знайдені посилання на документи, що містять слова йти, йде, йшов, йшла і так далі На запит вікно буде видано інформація, що містить і слово вікон, а на запит відкликали – документи, що містять слово відкликали. При цьому пошук не обмежений лише словами або фразами. Яндекс відшукає всіх, хто послався на вашу сторінку, файли з потрібною картинкою, останні новини або товари в електронних магазинах. Як відомо, в хорошому питанні міститься половина відповіді. Ми вважаємо, що шукати і знаходити потрібне в оберемку текстів в мережі Інтернет – уміння не тільки пошукової системи, але і користувача, задаючого запит. Варіанти пошукуТонкий пошукЯндекс володіє розвиненою мовою запитів, що дозволяє здійснювати тонкий пошук. Для того, щоб скористатися широким спектром можливостей, використовуйте сторінку «розширений пошук», де велика частина настройок Яндекса задається простим чином. Звернете увагу, що, при заповненні декілька полів, запит будуть складений так, щоб всі умови виконувалися одночасно (через документне «І» – &&). Якщо вас цікавлять оператори мови запитів, звернетеся до сторінки формального опису. Розширений пошукУ цьому виді пошуку указуються додаткові умови в спеціальних полях сторінки «розширений пошук» (докладніше за див. в посиланні на першій сторінці пошукової машини Yandex.ru). Словарний фільтрТут ви можете вказати, які слова обов'язково повинні зустрітися в документі, яких бути не повинно, а які бажані (тобто можуть бути, а можуть не бути). Поле «всі форми» або «точна форма» указує Яндексу, чи треба враховувати при запиті всі словоформи. «Точна форма» зазвичай потрібна тільки для пошуку цитат. Зоною пошуку слова може бути як текст документа (слова знаходяться в одній пропозиції або всьому документі), так і його заголовок, анотація (тег description), посилання (підпис URL) або адреса (сам URL). Варіант «у фразі» означає необхідність шукати слова в тому порядку, в якому вони введені. Ви можете задати декілька слів через кому. ДатаОбмеження видачі документів по даті. Документи з невідомою датою в цей список не включаються. Сайт/вершинаЗапит йде тільки по сторінках вказаного сайту або піддиректорії (вершини) сайту. Пошук буде проведений серед всіх піддиректорій. Тут же (у сусідньому полі) ви можете виключити з пошуку сторінки певного сайту. Ви можете внести декілька адрес, перерахувавши їх через пропуск. Таким чином, ви можете зробити пошук по своєму особистому сайту через Яндекс – тобто обмежити пошук тільки вашим сайтом. ПосиланняЯк дізнатися, хто посилається на ваш ресурс? Введіть в цьому полі адресу вашої сторінки, і ви це дізнаєтеся. Якщо адреса вашого сайту починається з www, то впишіть його целиком, включаючи www. Тут же ви можете виключити з пошуку сторінки, де коштує посилання на певну адресу. На основі цієї можливості розраховується індекс цитованості. Щоб виключити всі внутрішні посилання (тобто з одних сторінок вашого ресурсу на інших його сторінки), використовуйте поле сайт/вершина і виключите ресурс з пошуку посилань. ЗображенняПошук документів, що містять картинку з певною назвою або підписом. Файл картинки може називатися, наприклад, applegreen.jpg. Тоді знайти такі файли можна запитом: apple. Запит аналогічний apple*.*. Для пошуку в підписі до зображення (тег alt) впишіть запит в сусіднє поле. Спеціальні об'єктиПошук сторінки, що містять файли об'єктів: скрипт, об'єкт, аплет, java. У полі указується ім'я об'єкту. МоваЯндекс уміє визначати мову документа. Ви можете задати мову документа, де треба провести пошук: російський (кирилиця) або не російський. У базі Яндекса знаходяться тільки документи російськомовного Інтернету (за умовчанням в пошукову машину вносяться сервера в доменах su, ru, am, az, by, ge, kg, kz, md, tj, ua, uz), а також зарубіжні сайти, що представляють інтерес для російськомовного пошуку. Формат видачі«Коротка видача» показує тільки список заголовків документів. «Тільки URL» – тільки адреси знайдених сторінок. Загальні ради при пошукуВи не хочете заглиблюватися в деталі техніки пошуку? Просто задайте Яндексу питання так само, як би ви його задали бібліотекареві або всезнайкові-ерудитові. Наприклад, «де раки зимують», «яскрава зірка північної півкулі» або «як вибрати комп'ютер». Раді з пошуку в ЯндексеПеревіряйте орфографіюЯкщо пошук не знайшов жодного документа, то ви, можливо, допустили орфографічну помилку в написанні слова. Перевірте правильність написання. Якщо ви використовували при пошуку декілька слів, то подивитеся на кількість кожного із слів в знайдених документах (перед їх списком після фрази «Результат пошуку»). Якесь із слів не зустрічається жодного разу? Швидше за все, його ви і написали невірно. Використовуйте синонімиЯкщо список знайдених сторінок дуже малий або не містить корисних сторінок, спробуйте змінити слово. Наприклад, замість «реферати» можливо більше підійде «курсові роботи» або «твори». Спробуйте задати для пошуку три-чотири слова-синоніми відразу. Для цього перерахуєте їх через вертикальну межу (|). Тоді будуть знайдені сторінки, де зустрічається хоч би одне з них. Наприклад, замість «фотографії» спробуйте «фотографії | фото | фотознімки». Шукайте більше, ніж по одному словуСлово «психологія» або «продукти» дадуть при пошуку поодинці велике число безглуздих посилань. Додайте одне або два ключові слова, пов'язаних з шуканою темою. Наприклад, «психологія Юнга» або «продаж і покупка продовольства». Рекомендуємо також звужувати область вашого питання. Якщо ви цікавитеся автомобілями Газа, то запити «автомобіль Волга» або «автомобіль ГАЗ» видадуть більш відповідні документи, ніж «легкові автомобілі». Не пишіть великими буквамиПочинаючи слово з великої букви, ви не знайдете слів, написаних з маленької букви, якщо це слово не перше в пропозиції. Тому не набирайте звичайні слова з Великої Букви, навіть якщо з них починається ваше питання Яндексу. Заголовні букви в запиті рекомендується використовувати тільки в іменах власних. Наприклад, «група Чорна кава», «телепередача Здоров'я». Знайти схожі документиЯкщо один із знайдених документів ближче до шуканої теми, чим останні, натисніть на посилання «знайти схожі документи». Посилання розташоване під короткими описами знайдених документів. Яndex проаналізує сторінку і знайде документи, схожі на той, що ви вказали. Але якщо ця сторінка була стерта з сервера, а Яндекс ще не встиг видалити її з бази, то ви отримаєте повідомлення «Запитаний документ не знайдений». Використовуйте знаки «+» і «-»Щоб виключити документи, де зустрічається певне слово, поставте перед ним знак мінуса. І навпаки, щоб певне слово обов'язково було присутнє в документі, поставте перед ним плюс. Звернете увагу, що між словом і знаком плюс-мінус не повинно бути пропуску. Наприклад, якщо вам потрібний опис Парижа, а не пропозиції численних турагентств, має сенс задати такий запит «путівник по парижу -агентство – тур». Плюс варто використовувати у тому випадку, коли потрібно знайти так звані стоп-слова (найбільш частотні слова російської мови, в основному це займенники, приводи, частинки). Щоб знайти цитату з Гамлета, треба задати запит «+быть або +не бути». Спробуйте використовувати мову запитівЗа допомогою спеціальних знаків ви зможете зробити запит точнішим. Наприклад, вкажіть, яких слів не повинно бути в документі, або що два слова повинні йти підряд, а не просто обидва зустрічатися в документі. Шукати без морфологіїВи можете вказати Яндексу не перебирати всі словоформи слів із запиту при пошуку. Наприклад !лукомор'я знайде тільки сторінки, що цитують рядок із вірша Пушкіна («У лукомор'я дуб зелений»). Пошук картинок і фотографійЯндекс уміє шукати не тільки в тексті документа, але і відшукувати картинки по назві файлу або підпису. Для цього на першій сторінці yandex.ru натисніть посилання «розширений пошук». Для пошуку картинки передбачено два поля. У полі «Назва картинки» вписуються слова для пошуку по назвах картинок, що зазвичай з'являються, коли до картинки підводиться курсор. Наприклад, назва картинки «Венера» видасть всі сторінки з картинками Венери (всього, що можна розуміти під цим словом). У полі «Підпис до картинки» вписується назва файлу, що містить картинку. Наприклад, запит dog знайде в мережі Інтернет всі картинки, в імені файлу яких зустрічається слово «dog». З великою вірогідністю ці картинки пов'язані з собаками. Детальний опис мови запитівЯк трактуються словаНезалежно від того, в якій формі ви спожили слово в запиті, пошук враховує всі його форми по правилах російської мови. Наприклад, якщо заданий запит 'йти', то в результаті пошуку будуть знайдені посилання на документи, що містять слова 'йти', 'йде', 'йшов', 'йшла' і так далі На запит 'вікно' буде видано інформація, що містить і слово 'вікон', а на запит 'відкликали' - документи, що містять слово 'відкликали'. Якщо ви набрали в запиті слово з великої букви, будуть знайдені тільки слова з великої букви (якщо це слово не перше в пропозиції), інакше будуть знайдені як слова з великою, так і з маленької букви. Наприклад, запит 'орел' знайде і птаха, і місто. Запит 'Орел' - місто і ті випадки згадки птаха, коли вона написана з великої букви. За умовчанням пошук враховує всі форми заданого слова згідно правилам російської мови. Проте існує можливість пошуку по точній словоформі, для цього перед словоформою треба поставити знак оклику '!'. Так за запитом '!Лужкову' будуть знайдені всі документи, що містять словоформу 'Лужкову', а по запиту 'Лужків ~~ !Лужкову' - документи, в яких згадується Лужків, окрім тих, які були знайдені по першому запиту. ЗАВДАННЯ 1. Перевірте справедливість вказаних правил по трактуванню слів в пошукових машинах Yandex, Rambler, Google, AportПриродно-язиковий пошукЗнаки «+» і «-». Якщо ви хочете, щоб слова із запиту обов'язково були знайдені, поставте перед кожним з них «+». Якщо ви хочете виключити які-небудь слова з результату пошуку, поставте перед кожним з них «-». Наприклад, запит «приватні оголошення продаж велосипедів», видасть багато посилань на сайти з різноманітними приватними оголошеннями. А запит з «+» «приватні оголошення продаж +велосипедов» покаже оголошення про продаж саме велосипедів. Якщо вам потрібний опис Парижа, а не пропозиції численних турагентств, має сенс задати такий запит «путівник по парижу -агентство – тур».' Звернете увагу на знак «-». Це саме мінус, а не тире і не дефіс. Знак «-» треба писати через пропуск від попереднього і злито з подальшим словом, от так: «рак – гороскоп». Якщо написати «рак-гороскоп» або «рак – гороскоп», то знак «-» буде проігнорований. ЗАВДАННЯ 2. Перевірте справедливість вказаних вище правив по природно-мовному пошуку в пошукових машинах Yandex, Rambler, Google, AportОсновні операториДекілька набраних в запиті слів, розділених пропусками, означають, що всі вони повинні входити в одну пропозицію шуканого документа. Те ж саме враження справить вживання символу '&'. Наприклад, при запиті 'лікувальна фізкультура' або 'лікувальна & фізкультура'), результатом пошуку буде список документів, в яких в одній пропозиції містяться і слово 'лікувальна', і слово 'фізкультура'. (Еквівалентно запиту '+лечебная +физкультура') Між словами можна поставити знак '|', щоб знайти документи, що містять будь-яке з цих слів. (Зручно при пошуку синонімів). Запит вигляду 'фото | фотографія | фотознімок | знімок | фотозображення' задає пошук документів, що містять хоч би одне з перерахованих слів. Ще один знак, тильда '~', дозволить знайти документи з пропозицією, що містить перше слово, але що не містить друге. По запиту 'банки ~ закон' будуть знайдені всі документи, що містять слово 'банки', поряд з яким (в межах пропозиції) немає слова 'закон'. Щоб піднятися на сходинку вище, від рівня пропозиції до рівня документа, просто подвійте відповідний знак. Одинарний оператор (&, ~) шукає в межах пропозиції, подвійний (&&, ~~) - в межах документа. Наприклад, за запитом 'рецепти && (плавлений сир)' будуть знайдені документи, в яких є і слово 'рецепти' і словосполучення '(плавлений сир)' (причому '(плавлений сир)' повинен бути в одній пропозиції. А запит 'керівництво Visual C ~~ ціна' видасть всі документи із словами 'керівництво Visual C', але без слова 'ціна' ЗАВДАННЯ 3. Перевірте справедливість вказаних вище правив по використанню основних операторів в пошукових машинах Yandex, Rambler, Google, AportПошук з відстаннюЧасто в запитах шукають стійкі словосполучення. Якщо поставити їх в лапки, то будуть знайдені ті документи, в яких ці слова йдуть строго підряд. Наприклад, за запитом «червона шапочка» будуть знайдені документи з це фразою. (При цьому контекст «а шапочка у неї була червона» знайдений не буде.) Як Яndex адресує слова? Якщо всі слова в тексті перенумерувати по порядку їх проходження, то відстань між словами а і b - це різниця між номерами слів а і b. Таким чином, відстань між сусідніми словами рівна 1 (а не 0), а відстань між сусідніми словами, що стоять «не в тому порядку», рівна -1. Те ж саме відноситься і до пропозицій. Якщо між двома словами поставлений знак '/', за яким відразу надруковано число, значить, потрібний, щоб відстань між ними не перевищувала цього числа слів. Наприклад, задавши запит 'постачальники /2 каві', ви вимагаєте знайти документи, в яких містяться і слово 'постачальники' і слово 'кава', причому відстань між ними повинна бути не більше двох слів і вони повинні знаходитися в одній пропозиції. (Знайдуться "постачальники колумбійської кави", "постачальники каві з Колумбії" і так далі) Якщо порядок слів і відстань точно відомі, можна скористатися пунктуацією '/+n'. Так, наприклад, задається пошук слів, що стоять підряд. Запит 'синя /+1 борода' означає, що слово 'борода' повинне слідувати безпосередньо за словом 'синя'. (До того ж результату приведе запит "синя борода") У загальному вигляді обмеження по відстані задається за допомогою пунктуації виду '/(n m)', де 'n' мінімальне, а 'm' максимально допустима відстань. Звідси витікає, що запис '/n' еквівалентний '/(-n +n)', а запис '/+n' еквівалентний '/(+n +n)'. Запит 'музичне /(-2 4) освіта' означає, що 'музичне' повинна знаходитися від 'освіта' в інтервалі відстаней від 2 слів зліва до 4 слів справа Практично всі знаки можна комбінувати з обмеженням відстані. Наприклад, результатом пошуку по запиту 'вакансії ~ /+1 студентів' будуть документи, що містять слово 'вакансії', причому в цих документах слово 'студентів' не слідує безпосередньо за словом 'вакансії'. Коли знаки обмеження по відстані стоять після подвійних операторів, то спожиті там числа - це відстань не в словах, а в пропозиціях. Відстань в абзацах визначається аналогічно відстані в словах. Запит 'банк && /1 податки' означає, що слово 'податки' повинне знаходитися в тому ж самому, або в сусідньому із словом 'банк' пропозиції. ЗАВДАННЯ 4. Перевірте справедливість вказаних вище правив по пошуку з відстанню в пошукових системах Yandex, Rambler, Google, AportДужкиЗамість одного слова в запиті можна підставити цілий вираз. Для цього його треба узяти в дужки. Наприклад, запит '(історія, технологія, виготовлення) /+1 (сира, сиру)' задає пошук документів, які містять будь-яку з фраз 'історія сира', 'технологія сиру', 'виготовлення сира', 'історія сиру'. ЗАВДАННЯ 5. Перевірте справедливість вказаних вище правив по використанню в запиті дужок в пошукових системах Yandex, Rambler, Google, AportПошук в зонахМожна шукати інформацію в «зонах» - заголовках (ім'я «зони»: Title), посиланнях (ім'я «зони»: Anchor) і адресі (ім'я «зони»: Address). Синтаксис: $имя_зоны (пошуковий вираз). Запит '$title CompTek' шукає в заголовках документів слово 'CompTek'. Запит '$anchor (CompTek | Dialogic)' знаходить документи, в посиланнях усередині яких є одне із слів 'CompTek' або 'Dialogic'. Пошук в певних елементахМожна обмежити пошук інформації списком серверів або навпаки виключити сервера з пошуку (url). Можна також шукати документи, що містять посилання на певні URL (link), і файли картинок (image). Якщо ви хочете працювати не з конкретним URL (image), а зі всіма, що починаються з даної послідовності символів, використовуйте "*". Синтаксис: #имя_элемента=«имя_файла (URL)». За запитом 'CompTek ~~ #url=«www.comptek.ru*»' шукатимуться згадки компанії 'CompTek' скрізь, окрім її власного сервера (www.comptek.ru). А запит '#link=«www.comptek.ru*»' покаже всі документи, які послалися на сервер компанії. Запит ' #image=«tort*»' дасть посилання на документи із зображеннями тортів (хоча, можливо, знайдеться і портрет черепахи Тортілли). Можна також шукати за ключовими словами (keywords), анотаціями (abstract) і підписами під зображеннями (hint). Синтаксис: #имя_элемента=(пошуковий вираз). Запиту '#keywords=(пошукова система)| #abstract=(пошукова система)' шукатимуться всі сторінки, в meta тегах яких є ці слова. За запитом '#hint=(кіно)' будуть знайдені документи, що містять зображення з таким підписом. Ранжирування результату пошукуПри пошуку для кожного знайденого документа Яндекс обчислює величину релевантности (відповідності) змісту цього документа пошуковому запиту. Список знайдених документів перед видачею користувачеві сортується по цій величині в порядку убування. Рельовантность документа залежить від ряду чинників, зокрема від частотних характеристик шуканих слів, ваги слова або виразу, близькості шуканих слів в тексті документа один до одного і так далі Користувач може вплинути на порядок сортування, використовуючи операторів ваги і уточнення запиту. Завдання ваги слова або виразу застосовується для того, щоб збільшити релевантность документів, що містять «зважений» вираз. Синтаксис: слово:число або (поисковое_выражение):число За запитом 'пошукові механизмы:5' будуть знайдені ті ж документи, що і за запитом 'пошукові механізми'. Різниця полягає в тому, що нагорі списку знайденого опиняться документи, де частіше зустрічається саме слово 'механізми'. Запит 'пошукові (механізми | машини | апарати):5 ' рівнозначний запиту 'пошукові (механизмы:5 | машины:5 | аппараты:5)'. Завдання уточнюючого слова або виразу застосовується для того, щоб збільшити релевантность документів, що містять уточнюючий вираз. Синтаксис: <- слово або <- (уточняющее_выражение) За запитом 'комп'ютер <- телефон' будуть знайдені всі документи, що містять слово 'комп'ютер', при цьому першими будуть видані документи, що містять слово 'телефон'. Якщо ні в одному документі із словом 'комп'ютер' немає слова 'телефон', результат запиту буде еквівалентний запиту 'комп'ютер'. ЗАВДАННЯ 6. Перевірте справедливість вказаних вище правив по ранжируванню результатів пошуку в пошукових системах Yandex, Rambler, Google, Aport
Синтаксис мови запитів (строгий пошук)
Пошук в елементах
Раді з проведення пошуку
Контрольні питання
З повагою ІЦ "KURSOVIKS"! |