Роздрукувати сторінку

Главная \ Методичні вказівки \ Методичні вказівки \ 922 Глава 8. Інформаційні ресурси глобальної мережі інтернет. Подання знань про предметну область на основі онтологій з дисципліни Сучасні інформаційні системи і технології, КСУ, Київський славістичний університет

Глава 8. Інформаційні ресурси глобальної мережі інтернет. Подання знань про предметну область на основі онтологій з дисципліни Сучасні інформаційні системи і технології, КСУ, Київський славістичний університет

« Назад

ГЛАВА 8. Інформаційні ресурси глобальної мережі Інтернет. Подання знань про предметну область на основі онтологій

Інформаційні ресурси глобальної мережі Інтернет

Інтернет об’єднує в глобальну мережу величезну кількість локальних мереж. Важлива складова Інтернет WWW (World Wide Web) - це мережа інформаційних ресурсів, призначена для подання розподіленої гетерогенної інформації на базі архітектури “клієнт-сервер”. WWW забезпечує доступ до інформації за допомогою трьох механізмів:

єдиної системи іменування ресурсів;
протоколів доступу до цих іменованих ресурсів;
засобів гіпертексту та мультимедіа для ефективної навігації по цих ресурсах.

Для упорядкування інформації, поданої у WWW, постійно ведеться робота з виявлення закономірностей і розробки певних стандартів, що потім реалізуються в готових програмних продуктах. Це дозволяє сподіватися, що незабаром Інтернет перетвориться на мережу семантично пов'язаних ресурсів, а через якийсь час - і в розподілене сховище знань.

Засоби подання текстової інформації

Поняття гіпертексту було уведено В.Бушем ще в 1945 році, однак сплеск активності навколо цієї технології відбувся лише тоді, коли з розвитком Інтернет виникла реальна необхідність у механізмі об'єднання великих обсягів інформаційних ресурсів, що подані у вигляді нелінійного тексту. З використанням гіпертекстової моделі документа спосіб подання різноманітних інформаційних ресурсів у мережі став більш упорядкований, а користувачі одержали зручний механізм пошуку і перегляду потрібної інформації.

Зараз серед інформаційних ресурсів, потенційно доступних користувачам Інтернет, як і раніше, переважає гіпертестова інформація, в основному, у форматі HTML і XML (хоча частка цієї інформації постійно зменшується).

Найпопулярніша на сьогоднішній день мова гіпертекстової розмітки HTML була створена спеціально для організації інформації, розподіленої в мережі Інтернет, і є однією з ключових складових технології WWW. З використанням гіпертекстової моделі документа спосіб подання різноманітних інформаційних ресурсів у мережі став більш упорядкований, а користувачі одержали зручний механізм пошуку і перегляду потрібної інформації.

HTML є спрощеною версією мови розмітки SGML (Standart Generalised Markup Language, ISO 8879), яка була прийнята Комітетом ISO у 1986 році як міжнародний стандарт для визначення незалежних від пристроїв вводу/виводу, обчислювального середовища методів подання текстів в електронній формі. SGML призначається для опису формальних специфікацій мов опису документів, структур документів і інших метаданих.

HTML припускає, що документ складається зі стандартних елементів розмітки, що відображаються стандартним образом. Набір цих елементів – це типізація компонентів звичайного документа: заголовок, автори, параграфи, таблиці, цитування тощо.

Інструкції HTML, у першу чергу, призначені для управління процесом виводу вмісту документа на екран програми-клієнта і визначають цим самим спосіб подання документа, але не його структуру. HTML-документ складається зі стандартних елементів розмітки, що відображаються стандартним образом.

Збільшення кількості інформації в гіпертекстових документах та ускладнення їхньої структури перетворило простоту технології HTML з переваги на недолік.

Мову XML (eXtensible Markup Language) розроблено Всесвітнім консорціумом W3C для забезпечення інтероперабельності між SGML і HTML. На відміну від HTML, що створювався для гіпертекстових документів з фіксованою структурою, XML призначений для розмітки документів довільної структури.

XML являє собою простий і в той же час потужний та гнучкий текстовий формат опису документів. У форматі XML можна зберігати дані практично будь-якого ступеня структуризації і будь-якого призначення. XML-документ за своєю структурою є деревом, яке можна інтерпретувати і як граф. Перехід на специфікації XML дозволяє описувати структуру даних без прив'язки до форми їх відображення, визначати форму подання даних незалежно від конкретного змісту, створювати метадані та керувати доступом до даних тощо.

Зараз існує кілька мов запитів до XML-джерел даних: XQL та XML QL. Пошук в XML-документі полягає у встановленні елементів, що відповідають умовам запиту, з наступним перетворенням знайдених елементів у структуру, задану в запиті.

Технології XML забезпечують стандартне подання даних для використання різними застосуваннями без спеціальної додаткової обробки інформації. Різні логічні схеми різних документів можуть використовувати ті самі імена елементів у різних значеннях. Для інтерпретації цих значень необхідно вказати простір імен – колекцію імен, які ідентифиікуються за посиланням URI ( (URI – ідентифікатор ресурсів, що дозволяє описувати й ідентифікувати не тільки інформаційні ресурси Інтернет, але і предмети реального світу і загальні поняття предметної області), що використовуються документами XML як імена типів, елементів і атрибутів. Простір імен можна розглядати як ІР, з якого здобувають необхідні визначення.

Існують й інші формати для подання текстової інформації. Наприклад, PDF-файли звичайно розглядаються як частина «невидимої» Web-інформації, схованої в БД, що звичайно не індексуються пошуковими системами. Тим часом великий обсяг важливої інформації (у тому числі технічні статті і наукові звіти) зберігається тільки у форматі PDF. В Інтернет досить часто зустрічаються і матеріали у форматі MS Word чи у форматі rtf, у яких поряд з текстовою інформацією містяться малюнки, таблиці, графіки і формули.

Мультимедійна інформація

Будь-яка інформація, що не є текстовою, вважається мультимедійною. Це можуть бути зображення, музика, цифрове відео, цифрове аудіо. Для публікації та поширення через Інтернет такої інформації використовують стандарти форматів подання мультимедійної інформації MPEG, розроблені спеціальною експертною групою з питань рухомих зображень Moving Picture Experts Group, створеною в 1988 р. з ініціативи Об'єднаного Комітету Міжнародної Організації по Стандартизації (ISO) і Міжнародної Електротехнічної Комісії (IEC): MPEG-1 (ISO/IEC 11172), MPEG-2 (ISO/IEC 13818), MPEG-4 (ISO/IEC 14496), MPEG7 (ISO/IEC JTC1/SC29/WG11) та MPEG21 (ISO/IEC JTC1/SC29/WG11/N4801).

Стандарт ущільнення зображення і звуку, призначений для використання при записі на CD-ROM і Video CD MPEG-1, був прийнятий у 1993 р. MPEG-2 - стандарт ущільнення рухомого зображення і звуку, остаточно затверджений як міжнародний стандарт у 1994 р. MPEG-4 - стандарт ущільнення рухомого зображення і звуку, призначений для передачі даних з низькою швидкістю, приміром, по телефонних лініях. Стандарти MPEG-1 і MPEG-2 визначили розвиток відео-CD, MP3, DVD, цифрового телебачення тощо. Вони описують принципи подання аудіовізуальної інформації з використанням методів компресії. Стандарт MPEG-4 пропонує об'єктно-орієнтоване подання мультимедійних даних. Перша версія цього стандарту була розроблена в 1999 році, надалі робота над ним була продовжена.

Основне призначення MPEG-7 - це пошук мультимедійної інформації. MPEG-7 забезпечує стандартизацію опису різних типів мультимедійної інформації (а не для її кодування). Його офіційна назва - "Multimedia Content Description Interface" (інтерфейс опису мультимедійних даних).

MPEG-7 призначений як для користувачів-людей, так і для автоматичних систем, що обробляють аудіовізуальний матеріал. Основні засоби, що використовуються в описах MPEG-7, - це мова DDL (Description Definition Language), схеми описів (DS) і дескриптори (D). DDL – це не мова моделювання, подібна до UML (Unified Modeling Language), а мова схем для подання результатів моделювання аудіовізуальних даних. За основу DDL обрано XML.

Графічні формати Інтернет

Для подання графічної інформації зараз широко застосовують такі формати, як SMIL (Synchronized Multimedia Integration Language), SVG (Scalable Vector Graphics), VML (Vector Markup Language, Microsoft), VRML (Virtual Realty Modelling Languagy), PGML (Precision Graphics Markup Language, Adobe).

Специфікація SVG 1.0, розроблена консорціумом W3C базується на мові XML. SVG дозволяє створювати двомірні векторні зображення й обмінюватися ними між різними платформами. На відміну від растрової графіки, що зараз застосовується в більшості Web-застосувань, векторна графіка дозволяє зберігати зображення у вигляді точок, відрізків і фігур. Звідси її масштабуємість, що дозволяє змінювати розміри зображень без утрати якості.

Мова VRML призначена для опису тривимірних зображень і оперує об'єктами, що описують геометричні фігури і їхнє розташування в просторі. Vrml-файл являє собою звичайний текстовий файл, що ынтерпретуэться браузером. Оскільки більшість браузерів не має убудованих засобів підтримки vrml, для перегляду Vrml-документів необхідно підключати допоміжну програму - Vrml-браузер.

SMIL - це рекомендований консорціумом W3С механізм створення документів, що містять синхронізовану мультимедійну інформацію. Такі документи називаються SMIL-презентаціями і являють собою набір інструкцій, що описують текстові, відео- і аудіодані. За допомогою SMIL можна стандартним способом пов’язувати і синхронізувати різні елементи - текст, графіку, звук, відео тощо. SMIL застосовують у мережному телебаченні і дистанційній освіті. Фрагменти SMIL-презентацій можна вставляти в HTML-сторінки. Їх інтерпретують спеціальні модулі розширення браузерів. Для використання SMIL досвід програмування не обов'язковий.

Метаінформація про ресурси Інтернет

Метадані (metadata) - це інформація про документ, яку можна автоматично інтерпретувати. На сьогоднішній день найбільш перспективною і загальновживаною моделлю опису метаданих є стандарт опису ресурсів RDF (Resource Description Framework), створений в 1999 р. консорціумом W3C. Його підтримують багато виробників ПЗ і постачальників інформації. За допомогою RDF можна описувати структуру сайту та пов'язану з ним ПрО. RDF дозволяє обирати тезаурус документа з обмеженого списку для опису ПрО, що полегшує пошук інформації і поліпшує якість пошуку. RDF описує ресурси у вигляді орієнтованого розміченого графа – кожен ресурс може мати властивості, які в свою чергу також можуть бути ресурсами або їх колекціями. Ця мова також використовує XML-синтаксис.

Стандарт RDF містить дві основні частини - власне спосіб опису ресурсів, а також спосіб завдання схем (RDF Schema), за якими описується ресурс.

Базовий будівельний блок у RDF — це трійка «об'єкт — атрибут — значення», що часто записують у вигляді A(O,V), тобто «об'єкт O має атрибут A зі значенням V». Цей зв'язок можна також подати як ребро з міткою A, що з'єднує два вузли, O і V: [O]-A->[V]. Дана нотація дуже корисна, оскільки RDF дозволяє змінювати місцями об'єкти і значення. Таким чином, будь-який об'єкт може відігравати роль значення, що в графічному поданні відповідає ланцюжку з двох ребер з мітками.

RDF допускає форму подання, у якій будь-який вираз RDF у трійці може бути об'єктом або значенням, тобто графи можуть бути як вкладеними, так і лінійними.

RDF Schema дозволяє розроблювачам визначати конкретний словник для даних RDF (такий, як authorOf) і указувати види об'єктів, до яких можуть застосовуватися ці атрибути. Іншими словами, механізм RDF Schema надає базову систему типів для моделей RDF.

Для того, щоб практично описати хоча б найпростіші атрибути документа, потрібно дати цим атрибутам назви, які потім будуть скрізь використовуватися. Зараз найбільш поширений набір елементів для створення метаданих, розроблений міжнародною групою "Dublin Core Metadata Elements". Він складається з 15 елементів, які можна умовно розбити на три групи:

Content - елементи, що стосуються змісту ресурсу;
Intellectual Property - елементи, що стосуються інтелектуальної власності;
Instantiation - елементи, що стосуються даного екземпляра ресурсу.

Цей набір елементів можна розширювати. Метадані можуть бути або вмонтовані безпосередньо в сам ІР, приміром, у HTML-сторінку, або зберігається й поновлюватися незалежно від ІР. Перший підхід простіший, а другий - більш універсальний.

Для створення RDF-описів документів розроблено відповідне ПЗ - RDFEdit.

Онтології

Філософський термін “онтології” зараз активно використовують в ІТ. Множина об'єктів і відношення між ними відображаються в словнику, в якому система, заснована на знаннях, подає ці знання.

У найбільш загальному випадку онтологія – це угода про спільне використання понять, що містить засоби подання предметних знань і домовленості про методи міркувань. Неформально онтологія являє собою певний опис погляду на світ у конкретній сфері інтересів. Цей опис складається з набору термінів і правил використання цих термінів, що обмежують їх значення в рамках конкретної ПрО.

На формальному рівні онтологія - це система, що складається з наборів понять і тверджень про ці поняття, на основі яких можна будувати класи, об'єкти, відношення, функції та теорії. Онтологія, як зразок загальної угоди про семантику ПрО, сприяє встановленню коректних зв'язків між значеннями елементів ПрО, створюючи умови для їх спільного використання. Онтології можна застосовувати як будівельні блоки компонентів БЗ, словник для зв'язку між агентами, визначення класів для програмних систем тощо.

Онтології – це бази знань спеціального виду, які містять семантичну інформацію з певної ПрО. Основні завдання, що можуть успішно вирішуватися за допомогою онтологій:

подання знань для виведення інформації, релевантної запиту користувача;
фільтрація та класифікація інформації;
індексування зібраної інформації;
організація спільної термінології для комунікації між користувачами.

Онтології використовуються в електронній комерції для підтримки автоматизованого обміну даними між покупцями і продавцями, для вертикальної інтеграції ринків, а також для повторного використання описів різними електронними торговельними точками. Механізми пошуку також застосовують онтології для знаходження сторінок із синтаксично різними, але семантично однаковими словами.

Онтологія (від др.-грец. “онтос” — “буття”, “логос” — “вчення”, “поняття”) — термін, що визначає вчення про буття, на відміну від гносеології — вчення про пізнання. Предметом онтології як частини метафізики було вивчення абстрактних і загальних філософських категорій, таких як буття, субстанція, причина, дія, явище тощо, а сама онтологія як наука претендувала на повне пояснення причин усіх явищ.

Для практичного використання краще застосовувати визначення онтології, запропоноване FIPA (Foundation for Intelligent Physical Agents): онтологія - це система категорій, що є наслідком певного погляду на навколишнє середовище.

При цьому сама система категорій не залежить від конкретної мови: онтологія завжди та ж сама незалежно від мови, що використовується для її опису.

У ШІ звичайно використовують таке визначення:

Онтологія - це знання, формально подані на основі концептуалізації, що припускає опис множини об'єктів і понять, знань про них та зв'язків між ними.

Формально онтологія складається з термінів, організованих у таксономію, їх визначень і атрибутів, а також пов'язаних з ними аксіом і правил виведення.

У найпростішому випадку онтологія описує тільки ієрархію концептів, зв'язаних відношеннями категоризації. У більш складних випадках до неї додаються певні аксіоми для відображення інших відношень між концептами і для того, щоб обмежити їх інтерпретацію. Онтологія являє собою БЗ, що описує факти, які вважаються завжди істинними в рамках визначеного угруповання на основі загальновживаного значення словника, що використовується.

Формальна модель онтології О - це упорядкована трійка

, де

Х - скінченна множина термінів (понять) ПрО, яку описує онтологія O;

- скінченна множина відношень між термінами заданої ПрО;

- скінченна множина функцій інтерпретації, заданих на термінах і/або відношеннях онтології O.

Якщо і , тоді онтологія О трансформується в простий словник: . Така вироджена онтологія може бути корисна для підтримки словників ПрО, але через те, що вона не дозволяє експліцитно вводити значення термінів, її застосовують, якщо терміни належать дуже вузькому (приміром, технічному) словнику і їхні значення вже заздалегідь добре узгоджені в межах певного (приміром, наукового) співтовариства. Відомими прикладами онтології цього типу є індекси пошукових машин в Інтернет.

Якщо , але , тоді кожному елементу множин термінів із Х може бути поставлена у відповідність функція інтерпретації f із .

Спеціальний підклас онтології - проста таксономія: . Цеієрархічна система понять, пов'язаних між собою відношенням«бути елементом класу», яке має фіксовану семантику і дозволяє організовувати структуру понять онтології у вигляді дерева. Такий підхід має свої переваги і недоліки, але в загальному випадку є адекватним і зручним для представлення ієрархії понять.

Залежно від призначення, розрізняють такі онтології:

онтології верхнього рівня, що містять найбільш загальні терміни;
онтології, орієнтовані на конкретну задачу;
прикладні онтології.

Основні характеристики онтології:

Чіткість — онтологія має ефективно відображати зміст термінів. Визначення мають бути об'єктивними, хоч мотивація використання термінів може визначатися ситуацією або вимогами обчислювальної ефективності. Для об'єктивізації визначень використовують чітко фіксований формалізм, при цьому доцільно задавати визначення у вигляді логічних аксіом.

Узгодженість — всі визначення мають бути логічно не суперечливими, а усі твердження, що виводяться в онтології, мають не суперечити аксіомам.

Розширюваність — онтологія має бути спроектована так, щоб забезпечувати використання словників термінів, що припускають можливість монотонного розширення та спеціалізації без необхідності ревізії вже існуючих понять.

Мінімум впливу кодування — концептуалізація, що лежить в основі створюваної онтології, має бути специфікована на рівні подання, а не символьного кодування.

Мінімум онтологічних зобов'язань - онтологія має містити тільки найбільш істотні припущення про ПрО, що вона моделює, щоб залишати простір для розширення і спеціалізації.

Методологія побудови онтологій потребує, у першу чергу, позначення цілей і області застосування онтології. В процесі побудови онтології фіксують знання про ПрО, а саме:

визначають основні поняття та їхні відношення в обраній ПрО;
створюють точні несуперечливі визначення для кожного основного поняття і відношення;
визначають терміни, що пов'язані з цими термінами і відношеннями.

На етапі кодування сукупності основних термінів, що використовують в онтології, поділяють на окремі класи понять; обирають мову подання онтології та безпосередньо задають фіксовану концептуалізацію обраною мовою подання знань.

Процес побудови онтології, відповідно до методології стандарту онтологічних досліджень IDEF5 (INTEGRATED DEFintion), складається з п'яти основних дій:

1) Вивчення і систематизування початкових умов для встановлення основних цілей і контексту проекту розробки онтології.

2) Збір та накопичення необхідних початкових даних для побудови онтології.

3) Аналіз та групування зібраних даних для полегшення побудови термінології.

4) Початковий розвиток онтології.

5) Уточнення та затвердження онтології - заключна стадія процесу.

Зараз існує багато проектів, в основу яких покладені онтології: TOVE (Toronto Virtual Enterprise), Ontolingua, KACTUS (в складі проекту ESPIRIT), SHOE (Simple HTML Ontology Extensions), Plinus, Сyc (MCC), (КА)², Semantic Web (консорціум W3C) тощо.

Онтології здатні зіграти важливу роль в організації обробки інформаційних ресурсів Інтернет, їхнього спільного використання й та семантичної інтерпретації.

Онтологія DAML+OIL являє собою колекцію RDF–трійок. DAML Ontology Library пропонує власну класифікацію онтологій за різними ознаками (приміром, за ключовими словами або за просторами імен, які вони використовують).

Для рішення задачі семантичної інтероперабельності Web у складі проекту Semantic Web розробляється мова подання онтологій OWL (OWL Web Ontology Language), що походить від DAML+OIL Web Ontology Language та також базується на RDF (Resource Description Framework). База знань OWL – це набір трійок, яким призначаються певні значення. Онтологія OWL містить кілька компонентів: заголовків (headers), елементів класів (class elements), елементів властивостей (property elements) та прикладів (instances), що можуть повторюватися. Онтологія - це послідовність аксіом та фактів, яка може також містити посилання на інші онтології. Крім того, до онтології може входити допоміжна інформація – приміром, про її розробника.

Основні й істотні відмінності від DAML+OIL полягають у наступному:

усунення кількості обмежень;
здатність прямо вказувати, що властивість є симетричною;
усунення деяких конструкцій DAML+OIL, що не використовуються.

Існує також кілька розходжень, що включають у себе деякі зміни імен деяких конструкцій, однак основна мета, переслідувана при створенні OWL була максимально коректно зберегти імена DAML+OIL.

Онтологія OWL є послідовністю аксіом і фактів, а також посилань на інші онтології, що вважається включеними в онтологію. Онтології OWL є документами Web і на них можна посилатися через URI. Онтології також мають компоненти для запису авторства і іншої не зв'язаною з логікою інформації, яка асоційована з онтологією.

Висновки

Використання онтологій та інших метаописів для опису інформаційних ресурсів Інтернет дозволяє формалізувати відомості про ПрО, до якої вони відносяться, що спрощує пошук потрібних користувачеві ресурсів.

Список літератури

1. Berners-Lee T., Hendler J., Lassila O. The Semantic Web. - http://www.scientificamerican.com/print_version.cfm?articleID=00048144-10D2-1C70-84A9809EC588EF21,

2. Introduction to RDF Metadata. - http://www.w3.org/TR/NOTE-rdf-simple-intro-971113.html.

3. MPEG Official Site. - http://mpeg.telecomitalialab.com.

4. OWL Web Ontology Language 1.0 Reference, W3C Working Draft 29 July 2002. - http://www.w3.org/TR/2002/WD-owl-ref-20020729/.

5. RDF Tutorial, W3C. - http://www.w3.org/TR/rdf-tuturial.

6. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. - Спб.: Питер, 2001.

7. Плескач В.Л., Рогушина Ю.В., Кустова Н.П. Інформаційні технології та системи. - К.: "Книга", 2004.

Контрольні питання

1. Які засоби використовують для подання гіпертексту?

2. У чому полягають відмінності між мовами HTML та XML?

3. Яка інформація називається мультимедійною?

4. Які формати використовуються для подання мультимедійних даних?

5. Які формати використовуються для подання графічної інформації в Інтернет?

6. Що таке метадані про документ?

7. Для чого використовують стандарт RDF?

8. Що таке онтологія?

9. Які мови використовують для подання онтологічних систем?

З повагою ІЦ “KURSOVIKS”!