Роздрукувати сторінку
Главная \ Методичні вказівки \ Методичні вказівки \ 3906 Методичні вказівки до лабораторної роботи 3 на тему Етапи автоматичного опрацювання текстів, Специфіка роботи системи автоматичного морфологічного аналізу

Методичні вказівки до лабораторної роботи 3 на тему Етапи автоматичного опрацювання текстів, Специфіка роботи системи автоматичного морфологічного аналізу

« Назад

Лабораторна робота 3 на тему Етапи автоматичного опрацювання текстів, Специфіка роботи системи автоматичного морфологічного аналізу

Мета: ознайомитися із етапами автоматичного опрацювання текстів природної мови; розглянути специфіку роботи системи автоматичного морфологічного аналізу. 

Хід роботи

Завдання 1.

Проаналізуйте поданий нижче текст з погляду його доморфемного аналізу. Визначте текстові одиниці, які потрібно встановити саме на етапі графемного аналізу. Результати запишіть у таблиці.

Трипі́льська культу́ра, культу́ра Кукуте́нь (рум. Cucuteni, або культурна спільність «Кукуте́нь-Трипі́лля») — археологічна культура часів енеоліту, назва якої походить від назви села Трипілля на Київщині (у зазначеній «розширеній» назві культури присутня ще й назва румунського села Кукутень). Культура набула найбільшого розквіту між 5500 та 2750 роками до н. е., розташовувалась між Карпатами та Дніпром на територіях сучасних України, Молдови та Румунії загальною площею понад 35 тис. км². У часи розквіту культури їй належали найбільші за розміром поселення у Європі: кількість мешканців деяких з них перевищувала 15 тис. осіб.

Трипільська культура є однією з основних давньоземлеробських культур мідного віку. Трипільські племена займали простори Східної Європи від Дніпра до Карпат, від Полісся до Чорного моря і Балканського півострова. Розвивалася ця культура в IV–III тис. до н. е. (протягом 1500–2000 років) і пройшла в своєму розвитку три етапи — ранній, середній та пізній. В Україні виявлено понад тисячу пам'яток трипільської культури. Вони згруповані у трьох районах: найбільше в Середній Наддністрянщині та Надпрутті й Надбужжі, менше у Наддніпрянщині. Вірогідно, за густиною розселення об'єднання племен.

Таблиця 1

Характеристика тексту

Ваше обґрунтування відповіді

Мова тексту

 

Стиль тексту

 

Жанр

 

Призначення

 

Таблиця 2

Текстові структури

Приклади

Ваші пояснення

Власні назви

 

 

Поняття, виражені одним словом

 

 

Поняття, виражені більше аніж одним словом

 

 

Інші текстові структури: цифри; слова, що містять цифри

 

 

Інші текстові структури: цитати, фразеологізми, сентенції

 

 

Завдання 2

Проаналізуйте поданий нижче текст з погляду його доморфемного аналізу. Визначте, якою мовою написаний текст. Обґрунтуйте вашу відповідь лінгвістичними даними з тексту.

Визначте текстові одиниці, які потрібно встановити саме на етапі графемного аналізу. Результати запишіть у таблиці. 

Ile stał przed oknem? Tego nie wiedział, ale kiedy odwrócił się w stronę pokoju i podszedł do stolika, na którym postawił herbatę kubki były już zimne. Jednym haustem wypił obie i położył się na łóżku. „Kto pozna kobietę pozna wszystko” – przypomniał sobie zasłyszaną gdzieś maksymę.

Michał nigdy nie miał przyjaciela. Zawsze stojący z boku klasowego życia właśnie teraz szczególnie dotkliwie poczuł swoją samotność. Nie było z kim o tym pogadać. Nie było z kim napić się piwa lub zapalić zakazanego papierosa. Rzucił okiem na regał. Pomiędzy książkami leżała jego niespodzianka dla Kingi. Bilety na „Osadę”. A wszystko dlatego, że udało się znaleźć dla mamy zajęcie. Tłumaczenie z angielskiego na polski „romansów dla kucharek” – jak to nazywała mama. Mało ambitna praca, ale… zawsze są z tego jakieś pieniądze. Całe ostatnie dwa tygodnie jeździł i woził mamy tłumaczenia do wydawnictwa, w którym jakiś facet miał je zaakceptować. Mama cały czas nie chciała ruszać się z domu. W wydawnictwie tłumaczył jaką mama przeszła operacją, że na razie on jest jej głosem. I kiedy dziś dostał od mamy pięć dych dla siebie postanowił uczcić to z Kingą w kinie. Michał zamknął oczy. Tak dawno nigdzie razem nie byli.

Таблиця 1

Характеристика тексту

Ваше обґрунтування відповіді

Мова тексту

 

Стиль тексту

 

Жанр

 

Призначення

 

Таблиця 2

Текстові структури

Приклади

Ваші пояснення

Власні назви

 

 

Поняття, виражені одним словом

 

 

Поняття, виражені більше аніж одним словом

 

 

Інші текстові структури: цифри; слова, що містять цифри

 

 

Інші текстові структури: цитати, фразеологізми, сентенції

 

 

Завдання 3

Проаналізуйте поданий нижче текст з погляду його доморфемного аналізу. Визначте, якою мовою написаний текст. Обґрунтуйте вашу відповідь лінгвістичними даними з тексту.

Визначте текстові одиниці, які потрібно встановити саме на етапі графемного аналізу. Результати запишіть у таблиці. 

Machine translation, sometimes referred to by the abbreviation MT (not to be confused with computer-aided translation, machine-aided human translation (MAHT) or interactive translation) is a sub-field of computational linguistics that investigates the use of software to translate text or speech from one natural language to another.

On a basic level, MT performs simple substitution of words in one natural language for words in another, but that alone usually cannot produce a good translation of a text because recognition of whole phrases and their closest counterparts in the target language is needed. Solving this problem with corpus and statistical techniques is a rapidly growing field that is leading to better translations, handling differences in linguistic typology, translation of idioms, and the isolation of anomalies.[1 

Завдання 4

Продемонструйте вміння визначати лексеми та словоформи у текстах.

Визначіть у тексті лексеми (леми) та словоформи. Результати запишіть у таблицю.

Обро́бка приро́дної мо́ви — загальний напрямок штучного інтелекту та лінгвістики. Він вивчає проблеми комп'ютерного аналізу та синтезу природної мови. Стосовно штучного інтелекту аналіз означає розуміння мови, а синтез - генерацію розумного тексту. Розв'язок цих проблем буде означати створення зручнішої форми взаємодії комп'ютера та людини. 

Словоформа

Лексема

Морфологічні характеристики

Кількість

 

 

 

 

Завдання 5

Розгляньте текст, поданий нижче. Визначіть, які із словоформ є морфологічно неоднозначними. Поясніть свою відповідь.

Гей, малий, скажи малому, хай малий малому скаже, хай малий свій клас покаже. 

Завдання 6

Протестуйте систему автоматичного морфологічного аналізу на сайті http://starling.rinet.ru/morph.htm. Виберіть із тексту по два слова із усіх частин мови (одне слово у початковій формі, одне – в непрямому відмінку) (російської мовою) (Текст для аналізу поданий нижче. Для виконання завдання його потрібно перекласти російською мовою). Результати запишіть у таблицю.

Статистичний машинний переклад — це різновид машинного перекладу тексту, заснований на порівнянні великих обсягів мовних пар. Мовні пари — тексти, що містять речення на одній мові і відповідні речення на інші, можуть бути як варіантами написання двох речень людиною — носієм двох мов, так і набором речень та їх перекладів, виконаних людиною. Таким чином статистичний машинний переклад має властивістю «самонавчання». Чим більше в розпорядженні програми є мовних пар і чим точніше вони відповідають один одному, тим краще результат статистичного машинного перекладу. 

Слово

Лексема (лема)

Морфологічна характеристика

Ваш коментар (оцініть можливості морфологічного аналізатора

 

 

 

 

Висновки напишіть до завдань 1-3 окремо, до завдань 4-6 окремо. У висновках до завдань 1-3 поясніть, як саме ви розрізняєте тексти, написані добре знаною вам мовою, від текстів, що написані мало відомою для вас мовою. 

З повагою ІЦ "KURSOVIKS"!