Лекції на тему Відкриті системи для 1 курсу, НУДПСУ
« НазадТема лекції: "Відкриті системи". 1 курсРогушина Ю.В.Мета лекції – оволодіти теоретичними основами використання локальних та глобальних мереж, навчитися працювати у відкритому середовищі Інтернет. Основні питання: 1. Комп’ютерні мережі. Основні компоненти комп’ютерних мереж 2. Географія та топологія комп’ютерних мереж 3. Види підключення до комп’ютерних мереж 4. Основні показники якості функціонування мережі 5. Еталонна модель взаємодії відкритих систем 6. Інформаційні ресурси Інтернет 7. Протоколи Інтернет 8. Класифікація сервісів Інтернет 9. Інформаційно-пошукові системи Основні терміни: комп’ютерна мережа, сервер, робоча станція, географія та топологія мереж, сервіси Інтернет, гіпертекст.
1. Комп’ютерні мережі. Основні компоненти комп’ютерних мережКомп'ютерна мережа — це система програмних і апаратних компонентів, взаємопов’язаних один з одним, що призначена для забезпечення спільного використання ресурсів, тобто даних і зовнішніх пристроїв. Найпростіша мережа складається з 2 комп'ютерів, здатних обмінюватися даними. Комп’ютерна мережа складається з: 1. Комп’ютерів; 2. Комунікаційного устаткування; 3. Операційних систем; 4. Мережних застосувань. Існують локальні та глобальні мережі. Локальні мережі використовують швидкі канали передання даних у межах певної обмеженої території. Глобальна мережа складається з кількох локальних мереж, що поєднані зовнішніми лініями зв’язку. Усі комп'ютери, що підключаються до мережі, можна розділити на три функціональні групи: 1. робочі станції; 2. сервери мережі; 3. комунікаційні вузли. Робоча станція — це підключений до мережі комп'ютер, на якому користувач мережі виконує свою роботу. Сервер — це підключений до мережі комп’ютер, що надає користувачам мережі певні послуги. Мережі поділяються на два типи: 1. Однорангові; 2. На основі сервера. В однорангових мережах усі комп'ютери рівноправні, серед них немає ієрархії. Кожен комп'ютер є одночасно і клієнтом, і сервером. Користувачі самостійно визначають, які дані на своєму комп'ютері зробити доступними для інших користувачів мережі. На відміну від однорангових мереж, мережі на основі сервера містять як мінімум один комп'ютер, що використовується винятково як сервер. Приклади – файловий сервер (комп'ютер, що зберігає загальні дані користувачів мережі й забезпечує одночасний доступ користувачів до цих даних), поштовий сервер (забезпечує обмін повідомленнями електронної пошти між користувачами мережі), сервер баз даних (комп'ютер, що виконує функції збереження, обробки і управління файлами БД). Слід зазначити, що всі ці типи серверів можуть функціонувати на одному комп'ютері. Щоб перешкодити загасанню сигналу та встановити зв’язок між різними сегментами мережі, використовують спеціальні пристрої — комунікаційні вузли мережі. Приміром, повторювач - пристрій, що підсилює або регенерує сигнал, що прийшов на нього, а шлюз – пристрій, що дозволяє організувати обмін даним між різними мережними об'єктами, що використовують різні протоколи обмін даними. Для ефективної роботи комп'ютерних мереж застосовують мережні операційні системи, що призначені для управління роботою мережі комп'ютерів. Мережні застосування - це прикладні програми, що забезпечують додаткові можливості при роботі в мережі: поштові програми, мережні бази даних тощо.
2. Географія та топологія комп’ютерних мереж.Для опису мереж використовують два терміни - географія та топологія мереж. Топологія мережі – це конфігурація графа, вузли якого – комп’ютери мережі, а ребра – фізичні зв’язки між ними. Топологія мережі характеризує фізичні зв'язки між комп’ютерами та іншими мережними пристроями, що входять в состав мережі. Усі мережі будуються на основі трьох базових топологій: 1. шина; 2. зірка; 3. кільце; і їхніх комбінацій. У мережі з топологією "шина" використовується один спільний кабель, до якого підключені всі комп'ютери мережі. Повідомлення передається від одного конкретного комп'ютера до всіх комп'ютерів, але приймає його тільки той комп'ютер, якому воно адресовано. При топології "зірка" усі комп'ютери підключені до концентратора, і повідомлення передаються через нього. При топології "кільце" сигнали передаються по кільцю, і кожен комп'ютер виступає в ролі повторювача. Географія мережі визначає локалізацію компонентів мережі. Приміром, географія розрізняє використання спільного принтера комп’ютерами, що знаходяться в одній або у різних кімнатах, тоді як топологія ігнорує такі відмінності. Таким чином, одна й та сама топологія може відповідати різним варіантам географії. 3. Види підключення до комп’ютерних мережУ Windows XP конфігурування мережевих засобів виконується за допомогою папки Сеть и подключение к Интернету (у папці Панель управления головного меню). У цій папці реєструються підключення комп'ютера до локальної мережі та Internet. Кожне підключення забезпечує зв'язок між вашим комп'ютером та іншим або мережею. Можна настроїти п'ять типів мережевого підключення:
Підключення до локальної мережі виконується мережевими адаптерами, які встановлюються у комп'ютер користувача. Це 4. Основні показники якості функціонування мережі1. Продуктивність обчислювальної мережі визначають як час реакції системи - період між моментом виникнення запиту і моментом одержання відповіді, так і її пропускна здатність - кількість інформації, що передається через мережу за одиницю часу. 2. Надійність роботи мережі визначається надійністю роботи всіх її компонентів, забезпеченням захисту інформації. 3. Керованість – наявність засобів впливу на роботу елементів мережі. 4. Розширюваність мережі - можливість модернізації її елементів, а також додавання нових елементів мережі (користувачів, комп'ютерів, служб). Масштабуємість мережі визначається можливістю її розширення без істотного зниження продуктивності. 5. Інтегрованість – можливість підключення до мережі різноманітного і різнотипного устаткування, програмного забезпечення від різних виробників. 5. Еталонна модель взаємодії відкритих системВідкриті системи - системи, які можуть взаємодіяти з іншими системами відповідно зі встановленими правилами. Середовище відкритих систем - це набір стандартів, що забезпечують інтероперабельність і мобільність застосувань, даних та персоналу. Взаємозв’язок компонентів здійснюється за допомогою протоколів - домовленостей відносно форматів подання інформації та правил, що визначають функціонування компонентів, що виконують інформаційний обмін. Міжнародна організація зі стандартизації (International Standards Organization - ISO) у 1984 р. розробила еталонну модель взаємодії відкритих систем (Open System Interconnection - OSI). Еталонна модель OSI поділяє проблему переміщення інформації між комп'ютерами через середовище мережі на сім менших, і отже, простіших проблем, які обрані через свою відносну автономність. В основі моделі OSI лежать 2 ключові принципи: 1. Концепція відкритих систем, тобто 2 різні системи, що підтримують функції відповідного рівня, можуть обмінюватися даними на цьому рівні; 2. концепція однорангового з'єднання типу “точка-точка“, тобто дані, що сформовані на конкретному рівні моделі, призначені тільки відповідному рівню іншого пристрою. Рівні моделі утворюють ієрархічну систему, у якій запит, який виникає на якому-небудь рівні, передається для виконання на більш низький рівень, і навпаки, результати обробки запитів передаються з більш низьких рівнів на більш високі. Для опису зв'язків між двома сусідніми рівнями встановлюється набір правил і угод - інтерфейс, що і визначає набір сервісів, які надаються рівнями. Кожна із семи областей проблеми вирішується за допомогою одного з рівнів моделі. Ці рівні відносно незалежні. Тому модулі, що реалізують кожний з рівнів, можуть бути модифіковані без внесення змін у модулі інших рівнів. Рівні еталонної моделі OSI: 1. Прикладний, 2. Подання даних. 3. Сеансовий. 4. Транспортний. 5. Мережний. 6. Канальний. 7. Фізичний. 6. Інформаційні ресурси ІнтернетІнтернет - глобальна і сильно децентралізована мережа, що не має єдиного органу керівництва. З технічної точки зору, Інтернет - об'єднання транснаціональних комп'ютерних мереж, що працюють по різних протоколах. Інтернет об’єднує в глобальну мережу величезну кількість локальних мереж. Важлива складова Інтернет WWW (World Wide Web) - це мережа інформаційних ресурсів, призначена для подання розподіленої гетерогенної інформації на базі архітектури “клієнт-сервер”. WWW забезпечує доступ до інформації за допомогою трьох механізмів:
Кожний комп'ютер, підключений до мережі Інтернет, має унікальну IP-адресу, що складається з чотирьох наборів цифр, розділених точками. Оскільки ці числа важко запам'ятати і ввести без помилок, створена доменна система іменування DNS (Domain Name System). DNS дозволяє присвоювати IP-адресам короткі зрозумілі імена для визначення місцезнаходження комп'ютера. За допомогою DNS кожний ресурс Інтернет отримує власну адресу - URL (Uniform Resource Locator). URL задає метод доступу, сервер, до котрого треба звернутися, а також і місцезнаходження ресурсу на сервері. Найпростіший URL містить: - протокол, - двокрапку, - адресу ресурсу. Адреса починається з подвійної косої риси. Наприклад, адреса Web-серверу Micrcoft: http://www. microsoft. com. Наприклад, у www.microsoft.com ім'я домену - microsoft.com. Останні 3 букви DNS - адреси вказують тип домену. Найбільше поширені такі типи доменів в адресах США: com - комерційні організації, edu - навчальні заклади, gov - урядові організації, net - постачальники мережних послуг, org - інші організації. У адресах інших країн використовуються такі доменні позначення: ru - Росія, ua - Україна, fr - Франція, uk - Великобританія. Більша частина ресурсів Інтернет подана за допомогою гіпертексту. HTML є спрощеною версією мови розмітки SGML (Standart Generalised Markup Language, ISO 8879), яка була прийнята Комітетом ISO у 1986 році як міжнародний стандарт для визначення незалежних від пристроїв вводу/виводу, обчислювального середовища методів подання текстів в електронній формі. SGML призначається для опису формальних специфікацій мов опису документів, структур документів і інших метаданих. HTML припускає, що документ складається зі стандартних елементів розмітки, що відображаються стандартним образом. Набір цих елементів – це типізація компонентів звичайного документа: заголовок, автори, параграфи, таблиці, цитування тощо. Поняття гіпертексту було уведено В.Бушем ще в 1945 році, однак сплеск активності навколо цієї технології відбувся лише тоді, коли з розвитком Інтернет виникла реальна необхідність у механізмі об'єднання великих обсягів інформаційних ресурсів, що подані у вигляді нелінійного тексту. З використанням гіпертекстової моделі документа спосіб подання різноманітних інформаційних ресурсів у мережі став більш упорядкований, а користувачі одержали зручний механізм пошуку і перегляду потрібної інформації. Зараз серед інформаційних ресурсів, потенційно доступних користувачам Інтернет, як і раніше, переважає гіпертекстова інформація, в основному, у форматі HTML і XML (хоча частка цієї інформації постійно зменшується). Інструкції HTML, у першу чергу, призначені для управління процесом виводу вмісту документа на екран програми-клієнта і визначають цим самим спосіб подання документа, але не його структуру. HTML-документ складається зі стандартних елементів розмітки, що відображаються стандартним образом (докладніше – на лабораторних заняттях). Мову XML (eXtensible Markup Language) розроблено для розмітки документів довільної структури. XML – простий і в той же час потужний та гнучкий текстовий формат опису документів. У форматі XML можна зберігати дані практично будь-якого ступеня структуризації і будь-якого призначення. XML-документ за своєю структурою є деревом, яке можна інтерпретувати і як граф. Перехід на специфікації XML дозволяє описувати структуру даних без прив'язки до форми їх відображення, визначати форму подання даних незалежно від конкретного змісту, створювати метадані та керувати доступом до даних тощо. 7. Протоколи Інтернет.Протоколи сімейства TCP/IP є основою Інтернет. Вони визначають, як дані розбиваються на пакети для передачі по мережі, а також як застосування можуть пересилати файли і відправляти електронну пошту. Хоча протоколи TCP/IP не вписуються точно в сім рівнів моделі OSI, вони мають усі необхідні функціональні можливості для продуктивної роботи мережі. Мережний і транспортний рівні - ядро сімейства TCP/IP, де основний протокол - IP (Internet Protocol). IP представляє адресний простір для міжмережних взаємодій і керує маршрутизацією пакетів даних по мережах. ARP (Address Resolution Protocol) - ще один протокол мережного рівня, що допомагає мережним пристроям визначати IP-адреси. Мережі, що працюють за протоколами tcp/ip, народилися як проект агентства DARPA міністерства оборони США. Мережа створювалася "на випадок ядерної війни" і припускала, що будь-який комп'ютер у мережі може перестати функціонувати в будь-який момент, так само як і лінії зв'язку між комп'ютерами. Протокол ip (Internet Protocol)описує формат пакета даних, переданого по мережі. Простий приклад пояснює це. Коли Ви одержуєте телеграму, весь текст у ній (і адреса, і повідомлення) написаний на стрічці підряд, але є правила, які дозволяють зрозуміти, де тут адреса, а де повідомлення. Аналогічно, пакет у комп'ютерній мережі являє собою потік бітів, а протокол ip визначає, де адреса і інша службова інформація, а де саме передані дані. Протокол tcp (transmission control protocol) призначений для контролю передачі і цілісності інформації. Комп'ютери обмінюються пакетами протоколу ip, контролюють їхню передачу за протоколом tcp і, поєднуючись у глобальну мережу, утворюють Інтернет. До найбільш важливих прикладних протоколів відносяться FTP (File Transfer Protocol) для WWW (World Wide Web) і SNMP (Simple Network Management Protocol) для керування мережними пристроями. FTP- протокол для передачі файлів із серверу на комп'ютер користувача через Інтернет. На застосовному рівні діють і інші протоколи, що регулюють окремі аспекти роботи застосувань. До них відносять протоколи електронної пошти POP (Post Office Protocol), IMAP (Internet Mail Access Protocol) і MIME (Multimedia Internet Mail Extensions) Протокол TCP/IP дозволяє передавати інформацію, а його, у свою чергу, використовують різноманітні сервіси, що по-різному поводяться з інформацією. Ефективність роботи в мережі Інтернет визначається знанням існуючих сервісів, умінням користуватися конкретними сервісами і спроможністю вибрати правильний засіб рішення конкретної задачі. 8. Класифікація сервісів Інтернет.Сервіси Інтернет поділяють на 3 групи: інтерактивні (on-line), прямі і відкладеного читання (off-line). Сервіси, що відносяться до класу відкладеного читання, найбільш поширені, найбільш універсальні і найменш вимогливі до ресурсів комп'ютерів і ліній зв'язку. Основною ознакою цієї групи є те, що запит і одержання інформації можуть бути досить сильно розділені у часі. Приклад – електронна пошта. Прямі сервіси характерні тим, що інформація за запитом повертається негайно, проте від одержувача інформації не потрібно негайної реакції. Сервіси, де потрібна негайна реакція на отриману інформацію, тобто одержувана інформація є теж запитом, відносять до інтерактивних сервісів. В звичайному зв'язку аналогами сервісів інтерактивних, прямих і відкладеного читання є, наприклад, телефон, факс і письмова кореспонденція. Електронна пошта (e-mail) - перший із сервісів Інтернет і найбільше поширений. Електронна пошта - типовий сервіс відкладеного читання (off-line). Ви посилаєте повідомлення, як правило у виді звичайного тексту, адресат одержує його на свій комп'ютер через якийсь, можливо - достатньо тривалий проміжок часу, і читає Ваше повідомлення тоді, коли йому буде зручно. E-mail дуже схожий на звичайну паперову пошту і має ті ж переваги і недоліки. Звичайний лист складається з конверта, на якому написана адреса, і вмісту - власне листа. Електронний лист також складається з заголовків, що містять службову інформацію (про автора листи, одержувачі, шляху проходження по мережі і т.д.), що грають роль конверта, і власне вмісту листа. Ви можете вкласти в звичайний лист що-небудь, наприклад фотографію; аналогічно, Ви можете послати файл із даними електронним листом. Ви можете підписати звичайний лист - можна підписати й електронний лист. Звичайний лист може не дійти до адресата або дійти занадто пізно - як і електронний лист. Звичайний лист дуже дешевий, і електронна пошта - найдешевший вид зв'язку. Отже, електронна пошта повторює переваги (простота, дешевина, можливість пересилки нетекстової інформації, можливість підписати і зашифрувати лист) і хиби (не гарантований час пересилки, можливість доступу третіх осіб під час пересилки, неінтерактивність) звичайної пошти. Проте в них є й істотні відмінності. Вартість пересилки звичайної пошти дуже сильно залежить від того, куди, у наскільки віддалену точку планети вона має бути доставлена, від її розміру і типу. Для електронної пошти такої залежності або немає, або вона досить невелика. Електронний лист можна шифрувати і підписувати набагато більш надійно і зручно, ніж паперовий. Швидкість доставки електронних листів набагато вище, чим паперових, і мінімальний час їхній проходження незрівнянно менше. Швидкість доставки повідомлень електронної пошти сильно залежить від того, яким способом вона передається. Шлях електронного листа між двома машинами, безпосередньо залученими до Інтернет, займає секунди, і при цьому можливість втрати або підміни листа мінімальна. З іншого боку, якщо Ви користуєтеся для передачі своїх електронних листів технологіями FTN (послідовної передачі файлів багатьма комп'ютерами по ланцюжку), і посилаєте лист у якусь екзотичну мережу, то лист, по-перше, буде йти довго - дні і навіть тижні, по-друге, буде мати великі шанси просто загубитися при обриві зв'язку під час передачі по ланцюжку, по-третє, його можуть легко підмінити десь у шляху проходження. Мережні новини Usenet (телеконференції) - це другий за поширеністю сервіс Інтернет. Якщо електронна пошта передає повідомлення за принципом "від одного - одному", те мережні новини передають повідомлення "від одного - багатьом". Кожний вузол мережі, що дізнався щось нове (тобто отримує нове повідомлення), переказує новину всім знайомим вузлам, тобто всім тим вузлам, із якими він обмінюється новинами. Таким чином, послане до телеконференції повідомлення поширюється, багаторазово дублюючись, по мережі, досягаючи за досить короткий час всіх учасників телеконференцій Usenet у усьому світі. При цьому в обговоренні певної теми може брати участь багато людей, незалежно від того, де вони знаходяться фізично, і можна знайти співрозмовників для обговорення будь-яких тем. . Новини розділені по ієрархічно організованих тематичних групах, і ім'я кожної групи складається з імен підрівнів ієрархії, розділених точками, причому більш загальний рівень пишеться першим. Наприклад, група новин comp.sys.sun.admin відноситься до ієрархії верхнього рівня comp, призначеної для обговорення усього, пов'язаного з комп'ютерами. У ієрархії comp є підрівень sys, призначений для обговорення різноманітних комп'ютерних систем, sun означає комп'ютерні системи фірми Sun, а admin - групу, призначену для обговорення питань адміністрування таких комп'ютерних систем. Таким чином, володіючи мінімальними знаннями англійської мови, можна по імені групи легко зрозуміти, що в ній обговорюється. Існують глобальні ієрархії, наприклад, comp, і ієрархії, локальні для якоїсь організації, країни або мережі. Набір груп, що одержує певний сервер Usenet, визначається адміністратором цього серверу і наявністю таких груп на серверах, із якими обмінюється новинами цей сервер. Звичайно сервер одержує усі глобальні ієрархії та групи, локальні для певної країни та організації. До різноманітних ієрархій застосовують різноманітні норми і правила роботи з ними. У першу чергу, це стосується мови повідомлень - у групи російської ієрархії краще писати російською, а у групи глобальної ієрархії comp можна писати тільки англійською. Не в усі в Usenet можна посилати інформацію рекламного характеру - наприклад, ви можете вільно посилати рекламні повідомлення в групи ієрархії relcom. commerce, спеціально для того і створені, а у групи некомерційної мережі FIDO посилати рекламу строго заборонено. . Починаючи працювати з якоюсь групою або ієрархією груп, у першу чергу потрібно прочитати правила роботи з ними, що регулярно містяться в ці групи людиною, яка добровільно взяла на себе обов'язку координатора групи (модератора). Повідомлення перед тим, як бути розісланими по мережі, проглядаються модератором. Це, звичайно, є свого роду цензурою, але в такому величезному співтоваристві, як Usenet, неможливо підтримувати порядок без подібних правил. Списки розсилання (maillists) - це практично єдиний сервіс, що не має власного протоколу і програми-клієнта і працює винятково через електронну пошту. Ідея роботи списку розсилання полягає в тому, що існують спеціальні адреси електронної пошти, яка насправді списком адрес передплатників цього списку розсилання. Повідомлення, яке було послане на цю адресу, одержують усі передплатників . Такий сервіс по задачах, що він покликаний вирішувати, схожий на мережні новини Usenet, але має й істотні відмінності: 1. повідомлення, що поширюються по електронній пошті, завжди будуть прочитані передплатником, дочекавшись його в поштовій скриньці, у той час як статті в мережних новинах стираються через визначений час і стають недоступні; 2. списки розсилання більш керовані і конфіденційні: адміністратор списку цілком контролює набір передплатників і може стежити за змістом повідомлень. Кожний список розсилання ведеться якоюсь організацією, і вона має повний контроль над списком, на відміну від новин Usenet, що не належать нікому і менше керовані; 3. для роботи зі списком розсилання достатньо доступу до електронної пошти, і передплатниками можуть бути люди, що не мають доступу до новин Usenet або яких-небудь груп цих новин; 4. такий засіб передачі повідомлень може бути просто швидше, коли повідомлення передаються безпосередньо абонентам, а не по ланцюжку між серверами Usenet. Проте, порівнюючи списки розсилання і новини Usenet, треба відзначити, що часто групи Usenet можуть також бути доступні і через списки розсилання, і іншими засобами - через WWW, наприклад. Ситуації, коли застосовуються списки розсилання як адекватний засіб рішення задач, досить характерні: 1. організації часто створюють списки розсилання для оповіщення своїх клієнтів, користувачів своїх продуктів або просто зацікавлених осіб про випуск нових продуктів, комерційних пропозиціях, різноманітні новини компанії тощо; 2. потрібно використовувати список розсилання, коли обговорюється якесь питання, занадто специфічний і цікавляче занадто мало людей для того, щоб заводити для нього окрему групу в новинах Usenet; 3. списки розсилання часто заводяться віртуальними робочими групами - людьми, що працюють над однією проблемою, але живуть в різних точках планети. Так, деякі книги написані групою авторів, що ніколи не зустрічалися в реальному житті, але спілкувалися винятково через список розсилання. У залежності від числа передплатників, список розсилання обслуговується на сервері програмами різної складності, що можуть забезпечувати (або ні) такі функції: автоматичну підписку клієнтів і прийом їхньої відмови від підписки, перевірку коректності електронних адрес, ведення архіву повідомлень, обробку поштових помилок, підтримку роботи в режимі дайджесту (коли передплатник одержує не кожне повідомлення окремим листом, але періодично всі повідомлення за якійсь термін в однім листі), перевірку повідомлень адміністратором списку перед розсиланням і т.д. Спискам розсилання властиві деякі недоліки. Якщо Ви підписані на декілька списків, то можете виявити, що Ваша поштова скринька забита листами зі списків розсилання, і в їхній множині губляться особисті листи, що цікавлять Вас у першу чергу. Щоб не виникало такої ситуації, корисно застосовувати програми, що розкладають листи зі списків розсилання по окремих папках у момент одержання, розпізнаючи їх за їхніми заголовками. Інша проблема - іноді буває складно скасувати підписку, більше не цікаву для вас. Як уже говорилося, списки обслуговуються різними програмами, і ці програми управляються різними командами, що і викликає вищеописані проблеми. FTP - передача файлів Ще один поширений сервіс Інтернет - ftp (протокол передачі файлів), але при розгляді ftp як сервісу Інтернет мається на увазі не просто протокол, але саме сервіс - доступ до файлів у файлових архівах. ftp - стандартна програма, що працює за протоколом tcp, який завжди поставляється з операційною системою. Її початкове призначення - передача файлів між різними комп'ютерами, що працюють у мережах tcp/ip: на одному із комп'ютерів працює програма-сервер, на другому користувач запускає програму-клієнта, що з'єднується із сервером і передає або одержує файли за протоколом ftp. Передбачається, що користувач зареєстрований на обох комп'ютерах і з'єднується із сервером під своїм ім'ям і зі своїм паролем на цьому комп'ютері. Сервер ftp можна настроюється таким чином, що з'єднатися з ним можна не тільки під своїм ім'ям, але і під умовним ім'ям anonymous - анонім. Тоді стає доступною не уся файлова система комп'ютера, але певний набір файлів на сервері, що складають уміст серверу anonymous ftp - відкритої для інших користувачів Інтернет інформації. Отже, якщо хтось хоче надати в публічне користування файли з даними та програмами, то йому достатньо організувати на своєму комп'ютері, включеному в Інтернет, сервер anonymous ftp. Зробити це достатньо просто, програми-клієнти ftp є практично на будь-якому комп'ютері - тому сьогодні публічні файлові архіви організовані в основному як сервери anonymous ftp. На таких серверах сьогодні доступна величезна кількість інформації і програмного забезпечення. Практично усе, що може бути надано у виді файлів, доступно із серверів anonymous ftp. Незважаючи на поширеність, у ftp є багато недоліків. Немає простого й універсального засобу пошуку на серверах anonymous ftp. Сервери ftp не централізовані, і це теж несе свої проблеми. Незважаючи на все це, сервери anonymous ftp сьогодні - стандартний шлях організації публічних файлових архівів в Інтернет. Можна також організовувати доступ до файлів під паролем - наприклад, своїм клієнтам. ftp - сервіс прямого доступу, що вимагає повноцінного підключення до Інтернет. Система гипермедіа WWW. WWW (World Wide Web - усесвітнє павутиння) - найпопулярніший і найцікавіший сервіс Інтернет. Найпоширеніше ім'я для комп'ютера в Інтернет сьогодні - www, більше половини потоку даних Інтернет припадає на долю WWW. WWW - інформаційна система гіпертекстова, гіпермедійная, розподілена, інтегруюча, глобальна. WWW працює за принципом клієнт-сервер, точніше, клієнт-сервери: існує багато серверів, що за запитом клієнта повертають йому гіпермедійний документ - документ, що складається з частин із різноманітним поданням інформації (текст, звук, графіка, тривимірні об'єкти тощо), у якому кожний елемент може бути посиланням на інший документ або його частину. Ці посилання в документах WWW організовані таким чином, що кожний інформаційний ресурс у глобальній мережі Інтернет однозначно адресується. Посилання WWW указують не тільки на документи, специфічні для самої WWW, але і на інші сервіси й інформаційні ресурси Інтернет. Файл Web-сторінки — це текстовий файл, що містить команди мови HTML. Він зберігається на Web-сервері. Доступ до Web-сторінки здійснюється за допомогою спеціальних програм перегляду - Web-броузерів, що завантажують файли на комп'ютер користувача, інтерпретують HTML-коди і відображають результати. Програма перегляду посилає через комп'ютерну мережу запит до серверу, що зберігає файл із необхідним документом. У відповідь на запит сервер висилає програмі перегляду цей файл чи повідомлення про відмовлення, якщо файл по певним причинам недоступний. Взаємодія клієнта та сервера відбувається за протоколом HTTP (HyperText Transfer Protocol).У HTML-коді сторінки містяться вказівки на інформацію, яку необхідно відобразити (текст і графіка) або відтворити (звуковий супровід) у вікні броузера, інструкції про те, як ця інформація має відображатися, а також посилання на інші сторінки. Інструкції HTML призначені для управління процесом виведення вмісту документа на екрані програми-клієнта - броузера - і визначають цим самим спосіб подання документа, але не його структуру. HTML припускає, що документ складається зі стандартних елементів розмітки, що відображаються стандартним образом. Набір цих елементів – це типізація компонентів звичайного документа: заголовок, автори, параграфи, таблиці, цитування тощо. Як елемент гіпертекстової БД використовується текстовий файл, який може легко передаватися по мережі з використанням протоколу HTTP. Ця особливість, а також те, що HTML є відкритим стандартом і величезна кількість користувачів має можливість застосовувати можливості цієї мови для оформлення своїх документів, безумовно, вплинули на ріст популярності HTML і зробили його сьогодні головним механізмом подання інформації в Інтернет. Документ, написаний на HTML, являє собою текстовий файл, що містить власне текст, що несе інформацію читачу, і теги розмітки (markup tags). Теги являють собою визначені стандартом HTML послідовності символів, які містяться між знаками < та >. Відповідно до тегів розмітки програма розташовує текст на екрані, включає в нього малюнки, що зберігаються в окремих графічних файлах, і формує гіперзв'язки з іншими документами чи ресурсами Internet. Файл мовою HTML приймає "гіпертекстовий вигляд" тільки тоді, коли він інтерпретується програмою перегляду - броузером. Синтаксис html.Існує 2 види тегів: парні і непарні. Дія будь-якого парного тега починається з того місця, де зустрівся відкриваючий тег і закінчується при зустрічі відповідного закриваючого тега (ознакою якого є символ /, що випливає відразу після < ) чи кінця файлу. Наприклад, текст, що йде в HTML-документі за тегом курсиву <I> і триваючий до його закриваючого парного тега </I> виводиться на екран курсивом. Непарний тег викликає "одиничну" дію в тім місці, де він зустрічається. Наприклад, тег <BR> служить для переходу на новий рядок при виведенні тексту. Багато тегів можуть включати додаткові параметри, чи атрибути, що модифікують ефект даного тега, наприклад <P ALIGN=CENTER> - тег початку параграфа, який вирівнюється по центру вікна броузера. Структура HTML документа.Документ починається з тега <HTML>, що повідомляє програмі перегляду, що даний файл - це документ мовою HTML. Закінчується документ тегом </HTML>, що є закриваючим тегом, парним тегу <HTML>. Заголовок документа виділяється тегами <HEAD> і </HEAD>. Кожен HTML документ має рядок заголовка, визначений в такий спосіб: <TITLE> Ім'я заголовка </TITLE>. Цей рядок ідентифікує документ і відображається навігатором не тільки в заголовку головного вікна, але й в інших місцях, наприклад, у списку відвіданих сторінок. Тіло документа знаходиться між тегами <BODY> і </BODY> і відображається у внутрішній області вікна. Тіло документа може містити один або багато рядків. Зовнішній вигляд документа на екрані користувача визначається броузером. Якщо Ви працюєте за графічним або текстовим терміналом, то в кожному випадку документ буде виглядати по-своєму, але структура його залишиться незмінною, оскільки вона задана форматом html. Імена файлів у форматі html звичайно мають розширення html або htm. Далі - між тегами <HEAD> і </HEAD> - знаходиться головна частина документа, усередині якої, між тегами <TITLE> і </TITLE>, знаходиться назва документа. Назва виводиться не разом із самим документом, а в смузі заголовка вікна програми перегляду (title bar), а також використовується і для інших цілей. Потім - між тегами <BODY> і </BODY> - міститься основна частина документа, так називане тіло. Заголовки усередині документа. У мові HTML можливе використання заголовків 6 рівнів. Заголовок першого рівня вважається найголовнішим і використовується як перший заголовок документа. Заголовки можуть виділятися кольором і/чи жирним шрифтом, чим використовуваний для іншої частини документа. Між тегами <H1> і </H1> розташовується заголовок (heading), що програма перегляду виводить великим і/чи жирним шрифтом. Вирівнювання параграфів тексту. Для розбивки документів на параграфи в HTML документах використовуються спеціальні тэги <P> і </P>. Без них текст стає одним великим параграфом. Закриваючий тег може бути опущений, тому що браузер розуміє, що коли відкривається новий <Р>, це означає кінець попереднього параграфа. Тег <P> відзначає початок параграфа, текст якого виводиться з нового рядка. Кожному параграфу передує порожній рядок. Варто звернути увагу на те, що довжина рядка тексту, виведеного програмою перегляду, у загальному випадку, не збігається з довжиною рядка у вихідному HTML-файлі і визначається розміром вікна програми перегляду і розміром символів шрифту, що ця програма використовує для виведення тексту. У стандарті HTML визначений параметр ALIGN, за допомогою якого можна задати вирівнювання параграфа по горизонталі. Даний параметр може приймати наступні значення: LEFT, RIGHT, CENTER. Однак для вирівнювання по центрі можна скористатися також спеціальним тегом <CENTER>. Нижче приведений фрагмент програми, що використовує дані теги: <P ALIGN=LEFT>Параграф вирівняний по лівому краї, <P ALIGN=RIGHT>Параграф вирівняний по правому краї, <P ALIGN=CENTER>Параграф вирівняний по центрі. http (hypertext transfer protocol, протокол передачі гіпертексту) - це протокол, по якому взаємодіють клієнт і сервер WWW. 9. Інформаційно-пошукові системиІПС - це набір методів і засобів, призначених для здійснення інформаційного пошуку. Основне завдання ІПС - у пошуку і виборі з усіх доступних системі інформаційних ресурсів саме релевантної інформації, т.е тієї, котра найбільше відповідає інформаційним потребам, сформульованим у запиті. Інформаційний пошук - це сукупність операцій, необхідних для перебування інформації, що відповідає запиту користувача. Запит користувача являє собою опис інформації, доступ до якої він хоче одержати. Такий запит може, наприклад, містити ключові слова, пов'язані логічними операторами; документ-зразок; тип документа і його тему за класифікатором; списки рекомендованих чи заборонених користувачем інформаційних джерел; обмеження на час або обсяг пошуку; розмір, час створення та мова шуканого документа. Чим складніше форма подання запиту, тим вище релевантність пошуку (релевантність пошуку – це співвідношення між кількістю знайдених документів, що задовольнили користувача, тобто відповідали його запиту, і загальною кількістю знайдених у результаті пошуку документів). Але ускладнення форми запиту приводить до ускладнення процедури його обробки, і, отже, до збільшення часу пошуку. Основні критерії оцінки ефективності інформаційно-пошукових систем (ІПС) - це швидкість, точність і повнота відповідей. Точність визначається тим, яка частина інформації, що надається у відповідь на запит, є релевантною, тобто стосується цього запиту. Повнота характеризується співвідношенням між усією релевантною інформацією, що є в базі, і тією її частиною, що включена у відповідь. Крім цього, при оцінці пошукових систем враховується, з якими типами даних може працювати та або інша система, у якій формі представляються результати пошуку і який рівень підготовки користувачів необхідний для роботи в цій системі. Незважаючи на те, що в даний час існує велике різноманіття інформаційних ресурсів - зображення, відео, звук, сучасні пошукові засоби орієнтовані в основній масі тільки на текстову інформацію. При елементарному пошуку формується найпростіший запит, що складається з одного ключового чи слова фрази з 2-3 слів без використання логічних операторів, застосовуваних у розширеному типі інформаційно-пошукового запиту. По статистиці, користувачі закордонних пошукових систем використовують у середньому 1,5 слова в запиті. Наші користувачі більш "багатослівні" - 2,5 слова на один запит. При розширеному пошуку формується складний запит з використанням кількох ключових слів або виразів, зв'язаних логічними операторами. Інтерактивні пошукові служби Інтернет умовно можна розділити на пошукові машини і каталоги (директорії, рубрикатори). Вони розрізняються і по кількісним (охоплення, глибина пошуку), і по якісним (можливість використання формальних логічних запитів, фільтрація результату) характеристикам. Каталоги вирішують проблему відсутності в користувача інформації про шуканий об'єкт., подібні “Ау” (www.au.ru), “Russia on Net” (www.ru) чи “Yahoo!” (www.yahoo.com). Нові вузли вивчаються експертами і вручну відносяться ними до відповідного тематичним категоріям. Такі каталоги дозволяють користувачу, вибираючи підрозділи, поступово уточнювати свій запит, тим самим роблячи пошук більш ефективним. Багато каталогів також забезпечують пошук у своїй базі даних Однак цей клас пошукових механізмів має серйозний недолік – вони вимагають великого числа фахівців для класифікації ресурсів. Незважаючи на це, каталоги не завжди здатні надати користувачу велика кількість підрозділів через менший, у порівнянні з ростом інформаційних ресурсів, швидкістю заповнення каталогу. Найбільше розвинені можливості пошуку надають сьогодні системи пошуку за ключовими словами. Сучасні механізми пошуку в Web аналогічні за своєю дією традиційним системам здобуття інформації. Вони поділяються на дві групи - пошукові машини та каталоги. Пошукові машини звичайно містять три компоненти: програму індексації інформаційних ресурсів (робота), що автоматично переглядає різні сайти й індексує їх, базу даних (індекс), програму сканування, що дозволяє за запитом знайти відповідні інформаційні ресурси. При цьому кожна пошукова система намагається самостійно проіндексувати всю мережу. Чим більше вузлів покриває пошукова машина, тим вище частка помилкових посилань, що у деяких випадках може досягати навіть 10%. Деякі пошукові служби відносяться до повнотекстових - вони шукають ключові слова не тільки в заголовку (і в метатегах), але й у тілі сторінки. Інші обмежуються пошуком тільки в заголовках і метатегах. Те ж саме відноситься і до глибини дослідження вузлів: одні обробляють тільки заголовну сторінку, інші - усі посилання до певного рівня, треті - Web-вузол цілком. Крім того, деякі служби мають спеціалізацію (явну або неявну) і приділяють більше уваги вузлам, присвяченим певної темі. До пошукових машин відносяться AltaVista, HotBot, Яndex і Rambler. У каталогах замість індексів обробляються описи ресурсів, що створюються не автоматично, а людьми-експертами. Нові вузли вивчаються експертами і відносяться ними до відповідних тематичних категорій. Багато каталогів також забезпечують пошук у своїй базі даних. Перевагою каталогів є більш висока якість опису інформаційних ресурсів, а недоліками – менша кількість доступних інформаційних ресурсів і неможливість автоматичного відновлення інформації про них. Найбільше відомими прикладами подібних каталогів є Yahoo! і російськомовний “Ау! “. Суттєвим недоліком таких систем є низька точність інформації, що видається. Машини пошуку та здобуття інформації, такі як "Yahoo!", "Lycos", "Infoseek", використовують механізм пошуку по ключовим словам і не враховують контекст, в якому існує інформація. Ось чому результатом роботи таких систем можуть бути сотні тисяч посилань. Сучасні версії пошукових систем ("Metacrawler", "WebSeek" і. т.п.) адресують запит користувача відразу до багатьох машин пошуку, і складають індексні мета-каталоги і бази даних. Але вони залишаються в рамках пошуку, основаного на ключових словах, то отримані індекси зв'язують інформацію з термінами, враховуючи тільки актуальний для даного запиту лексичний або синтаксичний контекст. Аналогічні претензії можна адресувати і до тематичних каталогів, що складені вручну. Крім того, що для їхнього створення і супроводу необхідно занадто багато часу, існує дисонанс між критеріями класифікації понять автора і користувачів. Розвиток можливостей цих систем, спрямований на підвищення точності інформації, призводить до ускладнення мови запитів цих систем. Крім того, у кожній із систем є свій синтаксис мови запитів. Тому більшість користувачів просто ігнорують розвинені можливості систем пошуку і використовують тільки базові можливості, що призводять до низької якості результатів пошуку). Деякі пошукові служби обмежуються пошуком ключових слів тільки в заголовках документів, інші шукають і в тексті. Одні обробляють тільки головну сторінку, інші - усі посилання до визначеного рівня, треті - Web-вузол цілком. Результат пошуку - перелік знайдених документів, для кожного з яких, як правило, видається його назва, URL, розмір, дата створення і фрагмент тексту, що дозволяє судити про зміст сторінки (форма видачі результатів варіюється в різних системах і часто може вибиратися користувачем). Варто мати на увазі, що нерідко документ, на який указує пошукова система, уже не існує, тобто посилання застаріло. Будь-яка інформація, що не є текстовою, вважається мультимедійною. Це можуть бути зображення, музика, цифрове відео, цифрове аудіо. Для публікації та поширення через Інтернет такої інформації використовують стандарти форматів подання мультимедійної інформації MPEG, розроблені спеціальною експертною групою з питань рухомих зображень Moving Picture Experts Group, створеною в 1988 р. з ініціативи Об'єднаного Комітету Міжнародної Організації по Стандартизації (ISO) і Міжнародної Електротехнічної Комісії (IEC): MPEG-1 (ISO/IEC 11172), MPEG-2 (ISO/IEC 13818), MPEG-4 (ISO/IEC 14496), MPEG7 (ISO/IEC JTC1/SC29/WG11) та MPEG21 (ISO/IEC JTC1/SC29/WG11/N4801). Для подання графічної інформації зараз широко застосовують такі формати, як SMIL (Synchronized Multimedia Integration Language), SVG (Scalable Vector Graphics), VML (Vector Markup Language, Microsoft), VRML (Virtual Realty Modelling Languagy), PGML (Precision Graphics Markup Language, Adobe). SMIL - це рекомендований консорціумом W3С механізм створення документів, що містять синхронізовану мультимедійну інформацію. Такі документи називаються SMIL-презентаціями і являють собою набір інструкцій, що описують текстові, відео- і аудіодані. За допомогою SMIL можна стандартним способом пов’язувати і синхронізувати різні елементи - текст, графіку, звук, відео тощо. SMIL застосовують у мережному телебаченні і дистанційній освіті. Фрагменти SMIL-презентацій можна вставляти в HTML-сторінки. Їх інтерпретують спеціальні модулі розширення браузерів. Для використання SMIL досвід програмування не обов'язковий. Метадані (metadata) - це інформація про документ, яку можна автоматично інтерпретувати. На сьогоднішній день найбільш перспективною і загальновживаною моделлю опису метаданих є стандарт опису ресурсів RDF (Resource Description Framework), створений в 1999 р. консорціумом W3C. Його підтримують багато виробників ПЗ і постачальників інформації. За допомогою RDF можна описувати структуру сайту та пов'язану з ним ПрО. Для того, щоб практично описати хоча б найпростіші атрибути документа, потрібно дати цим атрибутам назви, які потім будуть скрізь використовуватися. Зараз найбільш поширений набір елементів для створення метаданих, розроблений міжнародною групою "Dublin Core Metadata Elements". Він складається з 15 елементів, які можна умовно розбити на три групи: Content - елементи, що стосуються змісту ресурсу; Intellectual Property - елементи, що стосуються інтелектуальної власності; Instantiation - елементи, що стосуються даного екземпляра ресурсу. Цей набір елементів можна розширювати. Метадані можуть бути або вмонтовані безпосередньо в сам ІР, приміром, у HTML-сторінку, або зберігається й поновлюватися незалежно від ІР. Перший підхід простіший, а другий - більш універсальний. Для створення RDF-описів документів розроблено відповідне ПЗ - RDFEdit.
Основні терміни:
Список літератури:
З повагою ІЦ "KURSOVIKS"! |