Роздрукувати сторінку

Главная \ Методичні вказівки \ Методичні вказівки \ 892 Практична робота 14 на тему Системи оптичного розпізнавання символів з курсу Основи інформатики та обчислювальної техніки, НУДПСУ

Практична робота 14 на тему Системи оптичного розпізнавання символів з курсу Основи інформатики та обчислювальної техніки, НУДПСУ

« Назад

Практична робота № 14

Тема: “Системи оптичного розпізнавання символів. Вивчення технологій сканування та розпізнавання тексту в середовищі програми FineReader”

Мета роботи: навчитись технологіям сканування та розпізнавання тексту середовища програми FineReader.

Хід роботи

Завдання 1. Уважно вивчіть теоретичні відомості і занотуйте необхідне у звіті. Виконайте практичне завдання.

Що таке OCR-системи

Системи оптичного розпізнавання символів (Optical Character Recognition – OCR) призначені для автоматичного введення друкарських документів в комп’ютер.

FineReader – омніфонтова система оптичного розпізнавання текстів. Це означає, що вона дозволяє розпізнавати тексти, набрані практично будь-якими шрифтами, без попереднього навчання. Особливістю програми FineReader є висока точність розпізнавання і мала чутливість до дефектів друку, що досягається завдяки використанню технології цілісного цілеспрямованого адаптивного розпізнавання.

Процес введення документа в комп’ютер можна розділити на два етапи:

1. Сканування. На цьому етапі сканер виконує роль ока Вашого комп’ютера: проглядає зображення і передає його комп’ютеру. При цьому одержане зображення є не чим іншим, як набором чорних, білих або кольорових точок, картинкою, яку неможливо відредагувати ні в одному текстовому редакторі.

2. Розпізнавання. Обробка зображення OCR-системою.

Розглянемо більш докладно кожний етап.

Сканування.

Якість розпізнавання багато в чому залежить від того, наскільки хороше зображення одержано при скануванні. Якість зображення регулюється установкою параметрів сканування.

Основними параметрами сканування є:

• Тип зображення. Існують три типи: сірий, чорно – білий, кольоровий.

Сканування в сірому (256 відтінків). є оптимальним режимом для системи розпізнавання. У разі сканування в сірому режимі здійснюється автоматичний підбір яскравості. Чорно-білий тип зображення забезпечує вищу швидкість сканування, але при цьому втрачається частина інформації про букви, що може привести до погіршення якості розпізнавання на документах середньої і низької якості друку. Якщо Ви хочете, щоб кольорові елементи (картинки, кольорові букви і кольоровий фон), що містяться в документі, були передані в електронний документ із збереженням кольору, необхідно вибрати кольоровий тип зображення. В інших випадках використовуйте сірий тип зображення.

• Роздільна здатність – використовуйте 300 dpi для звичайних текстів (розмір шрифту 10 і більше пунктів) і 400-600 dpi для текстів, набраних дрібним шрифтом (9 і менш пунктів).

• Яскравість – в більшості випадків підходить середнє значення яскравості – 50 %.

На деяких документах при скануванні в чорно-білому режимі може знадобитися додаткова настройка яскравості.

Зауваження. Сканування з роздільною здатністю 400-600 dpi замість 300 dpi або сканування в сірому або в кольорі, а не в чорно-білому може зайняти істотно більше часу. На деяких моделях сканерів сканування з роздільною здатністю 600 dpi займає в 4 рази більше часу, ніж сканування з роздільною здатністю 300 dpi.

Формати, в яких FineReader зберігає розпізнаний текст

FineReader зберігає результати розпізнавання в таких форматах:

• Microsoft Word Document (*.DOC)

• Rich Text Format (*.RTF)

• Adobe Acrobat Format (*.PDF)

• HTML

• Comma Separated Values File (*.CSV)

• Простий текст (*.TXT). FineReader підтримує різні кодові сторінки (Windows, DOS, Mac, ISO) і кодування Unicode.

• Microsoft Excel Spreadsheet (*.XLS)

• DBF

Практичне завдання.

1. Активізуйте програму програму FineReader: меню Пускª
ПрограммыªABBYY FineReader 6.0 Corporate Edition.

2. Вивчіть структуру вікна програми.

3. Вивчіть склад та призначення кнопок панелі Scan&Read, Стандартної панелі та панелі Форматирование.

4. Вивчіть склад списку команд для кожної кнопки панелі Scan&Read, натискаючи кнопку локального меню з трикутником- стрілкою біля кожної кнопки.

5. Вивчіть склад кожного меню Головного меню програми FineReader.

6. З’ясуйте місце розташування вікна Пакет.

7. З’ясуйте місце розташування вікна Изображение.

8. З’ясуйте місце розташування вікна Текст.

9. З’ясуйте місце розташування вікна Крупный план.

Встановлення параметрів сканування

Існує два режими сканування:

• через TWAIN з використанням інтерфейсу FineReader;

• через TWAIN з використанням інтерфейсу TWAIN-драйвера сканера.

Режим сканування задається у діалоговому вікні Сканирование/Открытие, яке відкривається після виконання команди меню СервисªОпцииªвкладка Сканирование/ Открытие.

При скануванні через TWAIN з використанням інтерфейсу FineReader в меню Сервіс виберіть пункт Настройки сканера і в діалоговому вікні Настройки сканера, що відкрилось, встановіть потрібні опції. Див. мал. нижче. Уважно вивчіть склад і призначення елементів управління параметрами сканування, які задаються в цьому діалоговому вікні.

При скануванні через TWAIN з використанням інтерфейсу TWAIN-драйвера сканера для установки параметрів сканування використовується діалог Вашого сканера, який відкривається автоматично при натисненні на кнопку панелі Scan&Read. Опції для установки параметрів сканування можуть називатися по-різному, залежно від моделі сканера. Наприклад, яскравість може називатися brightness, threshold, зображатися сонечком або чорно-білим кружком. Значення опцій описано в документації, прикладеній до Вашого сканера.

Сканування багатосторінкових документів

Для зручності сканування великої кількості сторінок в програмі FineReader передбачений спеціальний режим сканування: Сканировать несколько страниц. Він дозволяє сканувати декілька сторінок в циклі. При цьому:

• при скануванні через TWAIN з використанням інтерфейсу FineReader після закінчення сканування сторінки сканер автоматично починає сканування наступної;

• при скануванні через TWAIN з використанням інтерфейсу TWAIN-драйвера сканера Twain-діалог сканера не закривається після закінчення сканування першої сторінки. Ви можете покласти наступну сторінку в сканер і відсканувати її і т.д.

Ви можете відсканувати велику кількість сторінок двома шляхами: з використанням автоподатчика (ADF) і без нього.

При використанні автоподатчика (ADF)

• Інтерфейс FineReader. В діалоговому вікні Настройки сканера (меню Сервис→ Настройки сканера) встановіть прапорець Использовать автоподатчик бумаги (ADF) і запустіть сканування декількох сторінок (меню Файл → Сканировать несколько страниц).

• Інтерфейс TWAIN-драйвера сканера. В TWAIN-діалоговому вікні сканера клацніть на опції Use ADF (може називатися по-різному в залежності від моделі сканера; значення опцій описано в документації, прикладеній до Вашого сканера) і запустіть сканування (меню Файл→Сканировать несколько страниц).

Без використання автоподатчика (ADF)

1. Інтерфейс FineReader:

• У меню Файл виберіть пункт Сканувати декілька сторінок.

Для зручності сканування декількох сторінок підряд на планшетному сканері без автоподатчика:

• Встановіть величину паузи (час від закінчення сканування однієї сторінки до початку сканування наступної). Для цього в діалоговому вікні Настройки сканера (меню Сервис→ Настройки сканера) клацніть на Пауза між сторінками і встановіть величину паузи в секундах. Див. мал. вище.

У цьому випадку після сканування першої сторінки сканер робить вказану паузу, під час якої Ви вставляєте в сканер наступну сторінку. Потім сканування автоматично продовжується.

• Виберіть режим Останавливаться между страницами. Для цього в діалоговому вікні Настройки сканера (меню Сервис→ Настройки сканера) клацніть на опції Останавливаться между страницами. Див. мал. вище.

У цьому випадку кожного разу після закінчення сканування сторінки з’являтиметься діалог з запитанням про продовження сканування. Натискайте кнопку Да для сканування наступної сторінки і Нет – для завершення сканування.

Для завершення сканування в меню Файл виберіть пункт Остановить сканирование

2. Інтерфейс TWAIN-драйвера сканера

• В меню Файл виберіть пункт Сканировать несколько страниц. Для початку сканування в TWAIN- діалоговому вікні сканера, що відкрився, натискайте кнопку Scan (Final і т.д., назва кнопки залежить від конкретної реалізації TWAIN-драйвера сканера).

Для продовження сканування натискайте на кнопку Scan в Twain-діалоговому вікні сканера.

Для завершення сканування в Twain- діалоговому вікні сканера натискуйте на кнопку Close (або аналогічну їй по призначенню).

Порада: Щоб Ви могли контролювати результати сканування, на вкладці СканировниеªОткрытие (меню Сервис→ Опции) клацніть опцію Открывать изображение по мере сканирования. В цьому випадку після закінчення сканування сторінки відскановане зображення з’явиться у вікні Изображение. Якщо зображення відскановано невірно, зупиніть сканування (в меню Файл виберіть пункт Остановить сканирование) і відскануйте зображення заново.

Відкриття файлів із зображеннями

Якщо у Вас немає сканера, Ви можете розпізнавати збережені графічні файли.

Щоб відкрити зображення:

• Натискайте стрілку праворуч від кнопки 1-Сканувати і в локальному меню виберіть пункт Открыть изображение. Зовнішній вигляд значка зміниться; підпис Сканировать поміняється на Открыть.

• У меню Файл виберіть пункт Открыть изображение.

• У вікні Проводника: клацніть правою кнопкою Миші на файлі із зображенням і в контекстному меню виберіть пункт Открыть с помощью FineReader. Якщо на Вашому комп’ютері вже відкритий FineReader, зображення буде додано в поточний пакет, інакше перед доданням зображення в пакет автоматично запуститься FineReader з пакетом, з яким Ви працювали востаннє.

У діалоговому вікні Открыть виберіть одне або декілька зображень. Вибрані зображення з’являться у вікні Пакет, і останнє з вибраних зображень відкриється у вікні Изображение і у вікні Крупний план на екрані FineReader, при цьому копія зображення поміщається в папку пакету.

Порада:

Якщо Ви хочете, щоб відкриті зображення були відразу розпізнані, скористайтеся режимом Открыть и распознать. Для цього:

1. У меню Процесс виберіть пункт Открыть и распознать.
Клавіатурна команда: CTRL+SHIFT+D.

2. У діалоговому вікніОткрыть, що відкриється, виберіть зображення для розпізнавання.

Загальна інформація про роботу з пакетом

Пакет – це сукупність сторінок графічних зображень, які потрібно розпізнати. При першому запуску FineReader’а за замовчуванням відкривається пакет, розташований в папці користувача My Documents. Ви можете працювати з цим пакетом або створити новий. В пакеті може міститися до 9999 сторінок. В один пакет для зручності роботи рекомендується об’єднувати зображення, логічно зв’язані між собою (наприклад, сторінки однієї книги, тексти на одній мові або зображення з однотипним розташуванням тексту і т.д.).

Створення нового пакету

1. У меню Файл виберіть пункт Новый пакет.

2. У діалоговому вікні Новый пакет виберіть або створіть папку для нового пакету.

3. У полі Шаблон пакету виберіть одне із значень: Установки по умолчанию – для нового пакету використовуються опції за замовчуванням; Текущий пакет – на новий пакет передаються опції поточного пакету; Шаблон пакета (.fbt) – для нового пакету використовуються опції, раніше збережені в окремий файл.

2. Розпізнавання. Обробка зображення OCR-системою.

Обробка зображення системою FineReader включає аналіз графічного зображення, переданого сканером, і розпізнавання кожного символу. Процеси аналізу макету сторінки (визначення областей розпізнавання, таблиць, картинок, виділення в тексті рядків і окремих символів) і розпізнавання зображення тісно пов’язані між собою: алгоритм пошуку блоків використовує інформацію про розпізнаний текст для точнішого аналізу сторінки.

Як вже згадувалося, розпізнавання зображення здійснюється на основі технології цілісного цілеспрямованого адаптивного розпізнавання. Нижче наведено роз’яснення термінів трьох головних принципів розпізнавання, реалізованих в середовищі FineReader.

• Цілісність – об’єкт описується як ціле за допомогою значущих елементів і відносин між ними.

• Цілеспрямованість – розпізнавання будується як процес висунення і цілеспрямованої перевірки гіпотез.

• Адаптивне розпізнавання – здатність OCR-системи до самонавчання.

Відповідно до цих трьох принципів система спочатку висуває гіпотезу про об’єкт розпізнавання (символ, частину символу або декілька склеєних символів), а потім підтверджує або спростовує її, намагаючись послідовно знайти всі структурні елементи і пов’язуючи їх відносини. В кожному структурному елементі виділяються частини, значущі для людського сприйняття: відрізки, дуги, кільця і точки. Слідуючи принципу адаптивної, програма самостійно настроюється, використовуючи позитивний досвід, одержаний на перших упевнено розпізнаних символах. Цілеспрямований пошук і облік контексту дозволяють розпізнавати розірвані і спотворені зображення, роблячи систему стійкою до можливих дефектів написання.

В результаті роботи у вікні FineReader з’явиться розпізнаний текст, який Ви можете відредагувати і зберегти в найзручнішому для Вас форматі.

Можливості ABBYY FineReader 6.0 і вищі версії

Загальні

Тепер FineReader дозволяє відкривати і розпізнавати PDF-файли. PDF – один з найпопулярніших форматів зберігання документів в Internet, в архівах і т.д. Відкривши PDF-файл в FineReader, Ви можете розпізнати його, відредагувати і зберегти або в PDF, або в будь-якому іншому підтримуваному форматі збереження.
Інтеграція з Windows Explorer. Файли зображень і пакети, створені в FineReader, тепер можна відкривати з вікна програми Проводник.
Збереження розпізнаних документів з іменами вихідних зображень.
Панелі інструментів, що настроюються.
Друк відсканованих зображень або сторінок з розпізнаним текстом.
Можливість ручного і автоматичного розбиття зображень на дві книжкові сторінки або розташовані в певному порядку візитні картки.
177 мов розпізнавання.
Поліпшений алгоритм розпізнавання документів низької якості за рахунок методу адаптивної бінаризації зображення, відсканованого в сірому або кольоровому, і очищення текстури (рівномірного фону зображення).

Робота із зображеннями

Розпізнавання

Збереження і редагування

Багатошпальтний WYSIWYG-редактор. В цьому режимі (з повним збереженням вихідного оформлення документу) блоки з розпізнаним текстом, таблицями і картинками відображаються саме там, де вони були на початковому зображенні.
Точніше збереження оформлення вихідного документа при передачі в MS Word: збереження непрямокутних картинок, обтікання картинок багатошпальтним текстом, а також списків (нумерованих і маркірованих).
Підтримка роботи з багатомовними файлами формату PDF: FineReader зберігає багатомовні тексти у формат PDF, не вимагаючи при цьому установки додаткових шрифтів.
Новий режим збереження у формат PDF – Тільки зображення.
Можливість зміни ступеня стиснення картинок у форматі JPEG при збереженні в HTML і PDF-файлах.
Можливість зміни роздільної здатності картинок у форматі JPEG при збереженні в RTF, DOC і PDF-файлах.
Збереження вирівнювання тексту в комірках таблиць при передачі в MS Excel або збереженні у формат XLS.

Завдання 2. Уважно вивчіть теоретичні відомості і занотуйте необхідне у звіті. Виконайте практичне завдання по розпізнаванню пакету зображень.

Загальна інформація по розпізнаванню

Увага! Перед запуском розпізнавання перевірте встановлені опції: мову розпізнавання, тип друку розпізнаного тексту і тип сторінки.

Ви можете:

1. Розпізнати блок або декілька блоків, виділених на зображенні.

2. Розпізнати відкриту сторінку або всі сторінки, виділені у вікні Пакет.

3. Розпізнати всі нерозпізнані сторінки пакету.

4. Розпізнати всі сторінки у фоновому режимі. В цьому режимі можливе розпізнавання з одночасним редагуванням вже розпізнаних сторінок.

5. Розпізнати сторінки в режимі розпізнавання з навчанням. Даний режим застосовується в основному для розпізнавання текстів, що використовують декоративні шрифти, або для розпізнавання великого об’сягу (більше 100 сторінок) документів поганої якості друку.

6. Розпізнати сторінки одного пакету на декількох комп’ютерах одночасно.

Щоб запустити розпізнавання:

Натисніть кнопку 2-розпізнати на панелі Scan&Read.
У меню Процесс виберіть потрібний Вам пункт:

Распознать – щоб розпізнати відкриту сторінку або всі сторінки, виділені у вікні Пакет;

Распознать все – щоб розпізнати всі нерозпізнані сторінки пакету;

Распознать блок – щоб розпізнати блок або декілька блоків, виділені на зображенні;

Запустить фоновое распознавание – щоб запустити розпізнавання у фоновому режимі.

Кнопка 2-Распознать запускає розпізнавання відкритого зображення. Щоб змінити режим кнопки, натискуйте на стрілку праворуч від неї і з меню, що відкрилося, виберіть потрібний пункт.

Зауваження. При розпізнаванні вже розпізнаної сторінки заново розпізнаються тільки відредаговані і додані блоки.

Режим Распознавание с обучением

Як було відзначено, програма FineReader дозволяє вводити тексти різної якості, надруковані практично будь-якими шрифтами. Тексти хорошої і середньої якості, а також шрифти звичного зображення розпізнаються без попереднього навчання.

Режим Распознавание с обучением використовується для:

1. розпізнавання текстів, що використовують декоративні шрифти;

2. розпізнавання текстів, в яких зустрічаються спеціальні символи (наприклад, окремі математичні символи);

3. розпізнавання великого об’єму (більше 100 сторінок) тексту поганої якості.

У інших випадках Распознавание с обучением використовувати не рекомендується, оскільки витрати на навчання будуть більше, ніж одержаний виграш розпізнавання.

Навчання проводиться при розпізнаванні однієї-двох сторінок тексту в спеціальному режимі. В результаті створюється еталон букв, що зустрічаються в тексті. Цей еталон надалі використовується при розпізнаванні основного об’єму тексту. Деякі пари або трійки символів в тексті можуть склеюватися. Якщо при навчанні Вам не вдається перемістити прямокутник, що описує, так, щоб він укладав в себе один цілий символ і не містив при цьому частини сусідніх, то Ви можете навчити програму поєднанню символів, які неможливо розклеїти. Поєднання двох або трьох символів, що не розділяються, називаються лігатурами. Це, наприклад, такі поєднання, як ед, від, ff, ffi, ffl і інші.

Увага!

1. Створений еталон можна використовувати тільки для розпізнавання текстів, що використовують той же шрифт і розмір шрифту і відсканованих з тією ж роздільною здатністю, що і документ, на якому даний еталон створювався.

2. При видаленні пакету еталон також видаляється.

3. Ви можете зберегти створений еталон для роботи з іншими пакетами. Для цього збережіть настройки пакету у форматі шаблон пакету (*.fbt).

4. При переході до розпізнавання текстів, надрукованих іншим шрифтом, не забудьте відключити еталон (на вкладці Распознавание, меню Сервис→Опции встановите перемикач в положення Не использовать предназначенный для пользователя еталон).

Послідовність дій при розпізнаванні з навчанням:

1. Встановіть режим Распознавание с обучением (на закладці Распознавание меню Сервис→Опции в групі Распознавание с обучением встановіть перемикач в положення Распознавание с обучением). В рядку стану з’явиться назва еталону (за замовчуванням default).

2. Натискуйте кнопку 2-Распознать.

3. Навчіть еталон, розпізнавши одну-дві сторінки в режимі розпізнавання з навчанням. Вивчені символи заносяться в еталон, створюваний системою за замовчуванням. Після закінчення навчання система збереже створений еталон (default.ptn) в папці, де зберігається пакет.

4. Відредагуйте еталон.

5. Відмініть режим Распознавание с обучением (на вкладці Распознавание в групі Обучение встановіть перемикач Рас познавание с установленным пользователем еталоном).

6. Запустіть розпізнавання основного тексту, натискуючи на кнопку 2-Распознать.

Зауваження:

Щоб створити декілька еталонів на один пакет, скористайтеся діалогом Редактор эталонов (викликається із вкладки Распознавание клацанням на кнопці Еталони або з меню Сервис→Редактор еталонов). Створіть новий еталон (натискуйте в діалоговому вікні на кнопку Новый) і виберіть його для роботи (натискуйте на кнопку Выбрать).
Якщо в процесі навчання було створено декілька еталонів, то підключається останній створений еталон. Назва підключеного еталону пишеться в рядку стану.

Щоб підключити інший еталон для розпізнавання, в діалоговому вікні Редактора еталонів (меню Сервис→Редактор еталонів) в списку еталонів виберіть еталон і натискуйте кнопку Выбрать. На вкладці Распознавание в групі Обучение встановите перемикач в положення Распознавать из определенного пользователем эталона.

Якщо на вкладці Распознавание встановлений прапорець Использовать встроенные эталоны, то в режимі Распознавание с обучением програма запропонує навчити тільки невпевнено розпізнані символи.

Якщо Ви навчаєте програму декоративним або нестандартним шрифтам (наприклад, Тибету) і при цьому використовуєте вбудовані еталони, програма може розпізнати частину символів неправильно, не запропонувавши їх навчити. В цьому випадку рекомендується зняти прапорець опції Использовать встроенные эталоны: навчання проводитиметься кожному символу.

Розпізнавання у фоновому режимі

Якщо Ви хочете редагувати одночасно з розпізнаванням розпізнані сторінки, Ви можете запустити розпізнавання у фоновому режимі:

Для цього в меню Процесс виберіть пункт Запустить фоновое распознавание.

У цьому режимі розпізнавання автоматично поновлюється, як тільки в пакеті з’являються нерозпізнані сторінки.

Зауваження. На багатопроцесорних комп’ютерах режим Фоновое распознавание дозволяє збільшити швидкість розпізнавання пакетів, що містять велику кількість сторінок.

Щоб зупинити розпізнавання у фоновому режимі в меню Процесс виберіть пункт Остановить фоновое распознавание.

Увага! В режимі роботи розпізнавання у фоновому режимі використовуються опції, встановлені в програмі до запуску фонового розпізнавання.

Мова розпізнавання

FineReader підтримує розпізнавання як одномовних, так і багатомовних (наприклад, англійсько-французьких) документів.

Щоб вказати мову тексту, який розпізнається, виберіть відповідний рядок в списку Распознавание на Стандартній панелі.

Якщо Ви хочете розпізнати документ, написаний на декількох мовах:

1. У списку мов на панелі Стандартная клацніть кнопку Выбор нескольких языков…

2. У діалоговому вікні, що відкриється, вкажіть декілька мов. Для цього:

клацніть на пунктах з відповідними назвами мов.

Порада: Якщо Ви часто використовуєте яку-небудь комбінацію мов, то створіть нову групу, що містить ці мови.

Увага!

1. Збільшення кількості підключених до розпізнавання одного документу мов може привести до погіршення якості розпізнавання. Не рекомендується підключати більше 2-3 мов.

2. Перед запуском розпізнавання перевірте підключені на вкладці Форматирование шрифти: вони повинні містити всі символи мови розпізнавання. Інакше розпізнаний текст буде неправильно відображений у вікні Текст (в словах на місці деяких букв стоять значки ?).

Якщо потрібної мови немає в списку, можливі наступні варіанти:

Дана мова не підтримується системою FineReader.
Мова виключена із списку мов показуються на панелі Стандартная. В цьому випадку в списку мов на панелі Стандартная виберіть пункт Выбор из полного списка языков і в діалоговому вікні, що відкриється, вкажіть необхідну мову.

Мова була відключена при вибірковій установці. Щоб доустановити мови розпізнавання, запустіть програму инсталяції FineReader у режимі покомпонентної установки (Установка дистрибутива по вибору), зніміть відмітки зі всіх пунктів, окрім Мови розпізнавання, і натискуйте кнопку Склад. В списку мов, що відкрився, вкажіть необхідні мови.

Зауваження. При установці перевірте, що Ви вказали ту ж папку, в яку Ви раніше встановили ABBYY FineReader.

Щоб підключити/відключити мову до списку мов, що відображається:

У діалоговому вікні Редактора мов(меню Сервис→ Редактор мов) виберіть мову, яку Ви хочете підключити/відключити, і клацніть на пункті (зніміть прапорець) Показывать в списке языков.

Порада:Ви можете встановити мову розпізнавання на окремий блок. Для цього клацніть правою кнопкою миші на блоці, для якого ви хочете встановити мову розпізнавання, відмінну від мови розпізнавання для всього тексту, і з локального меню виберіть пункт Свойства. В діалоговому вікні Властивості на вкладці Блок в полі, що відкрився, виберіть мова розпізнавання виділеного блоку.

Підтримувані мови розпізнавання

Існує два варіанти поставки програми ABBYY FineReader:

• EU – 122 мови розпізнавання (латиниця і грецька).

• Cyrillic Plus – 177 мов розпізнавання (латиниця, грецька і кирилиця).

Мови, що не входять в поставку EU, виділені в списку напівжирним шрифтом. Клацнувши на назві мови, Ви можете одержати довідку по даній мові. Дані про число носіїв мови приведені на 1989 рік.

Більш докладно про шрифти для підтримуваних мов, див. розділ Шрифти, необхідні для коректного відображення символів підтримуваних мов в редакторі FineReader.

У ABBYY FineReader існують такі групи мов:

Основні мови

Додаткові мови

Штучні мови

Мови програмування

Основні мови

Ця група утворена з мов із словарною підтримкою. Для цих мов в програмі FineReader підтримана перевірка розпізнаного тексту (знаходження невпевнено розпізнаних слів і слів з орфографічними помилками).

Додаткові мови

Ця група утворена з менш поширених мов світу мов без словарної підтримки. Якщо словник для мови цієї групи буде встановлений, то вона може перейти у групу основні мови.

Штучні мови

ідо

Реформований есперанто. Створений в 1907 році Л. Бофроном, Л. Кутюра, О. Есперсеном, В. Оствальдом і ін. у Франції

інтерлінгва

Створений в 1951 році Асоціацією міжнародної допоміжної мови під керівництвом А. Гоуда в США

окциденталь

Створений в 1922 році естонцем Е. Валем.

есперанто

Найпоширеніша з штучних мов. Поширений в основному в Європі.

Мови програмування

Basic

BASIC, від Beginners All-purpose Symbolic Instruction Code. Розроблений в середині 1960-х років професорами Дартмутського коледжу Джоном Кемені і Томасом Курцом.

С/С++

Мову С розробив в 1972 році Денніс Річи, фахівець з системного програмування фірми AT&T Bell laboratories. Мову C++ розробив на початку 80х років співробітник тієї ж компанії Бьярне Страуструп.

COBOL

COBOL, від Common Business Oriented Language. Розроблений в 1960 році спільними зусиллями федерального уряду США і виробників комп’ютерів.

Fortran

FORTRAN, від FORmula TRANslator. Розроблений в середині 1950-х років програмістами фірми IBM.

JAVA

Java відбувся від мови програмування Oak, синтаксис мови Java близький до синтаксису мови C++. В 1995 році компанія Sun Microsystems оголосила про новий продукт, назвавши його Java. Мова використовується для написання додатків для роботи в Інтернеті.

Pascal

Одержала свою назву на честь французького математика 17 століття Блеза Паскаля. Розроблений швейцарським вченим, фахівцем в області інформатики, Ніколасом Віртом.

Прості хімічні формули.

Розпізнаються записи простих (не структурних) хімічних формул.

Типи документів, що найбільш часто розпізнаються:

Простий лист
Документ – текст в одну колонку

% Багатомовний документ

% Книжковий розворот

% Проста таблиця

% Таблиця з неповною кількістю чорних роздільників

% Складна таблиця

При обробці зображень ABBYY FineReader виконує автоматичну сегментацію (користувач у разі потреби може виконати і ручну сегментацію) зображення – розбиття зображення на окремі блоки наступних типів:

Текст – блок використовується для позначення тексту. Він повинен містити тільки одношпальтовий текст. Якщо всередині тексту містяться картинки, виділіть їх в окремі блоки.

Таблиця – цей блок використовується для позначення таблиць або тексту, що має табличну структуру. При розпізнаванні програма розбиває даний блок на рядки і стовпці і формує табличну структуру. У вихідному тексті даний блок передається таблицею. Ви можете виділити і відредагувати таблицю вручну.

Картинка – цей блок використовується для позначення картинок. Він може містити картинку або будь-яку іншу частину тексту, яку Ви хочете передати в розпізнаний текст як картинка.

Штрих-код (тільки у версії Corporate Edition) – цей блок використовується для розпізнавання штрих-кодів. Тобто, якщо Ваш документ містить штрих-код і Ви хочете передати його не картинкою, а перевести його в послідовність букв і цифр, то виділіть штрих-код в окремий блок і привласніть йому тип Штрих-код.

Зауваження. За замовчуванням опція, що дозволяє шукати і розпізнавати штрих-коди відключена. Щоб підключити її, клацніть на пункті Шукати штрих-коди на вкладці Распознавание (меню Сервисª Опции).

Практичне завдання

Скопіюйте на Робочій стіл локального комп’ютера папку з ім’ям Практ_№14, яка знаходиться у папці Практичні на сервері. В цій папці знаходяться файли, що містять відскановані сторінки документів, тобто зображення тексту, які потрібно розпізнати.
Активізуйте програму FineReader. В меню Файл виберіть команду Открыть изображение. В діалоговому вікні в полі Папка відкрийте папку Практ_№14, робочій області вікна виділіть файли F-1 і F-2, далі натисніть кнопку Открыть..
У вікні Пакет виділіть по черзі сторінки, встановіть для них необхідну мову розпізнавання. Для цього використайте кнопку списку мов Стандартної панелі:

Виконайте розпізнавання.

Порада. Перегляньте у вікні Изображение виконану програмою автоматичну сегментацію і внесіть корективи, призначаючи тип блоку для розпізнавання вручну. Для цього використайте кнопки панелі інструментів вікна Изображение:

У вікні Текст перегляньте розпізнаний текст.
Виконайте перевірку тексту, натиснувши кнопку . Прийміть рішення стосовно невпевнено розпізнаних символів для кожної сторінки.
Збережіть розпізнані сторінки як документи MS Word. Для цього натисніть кнопку панелі Scan&Read.
Збережіть розпізнані сторінки у своїй папці MS Word на сервері з ім’ям F-1 та F-2 відповідно.
Закрийте програму FineReader.

Завдання 3. Складіть звіт. Захистіть виконану роботу.

Перелік питань до захисту практичної роботи

Що таке ORC- системи?
Які ви знаєте різновиди інтерфейсу виконання сканування в FineReader і як вони задаються?
Які основні параметри сканування і як вони впливають на якість зображення?
Якщо шрифт тексту менший за 9 пунктів, то яку роздільну здатність потрібно задати при його скануванні?
Якщо шрифт тексту більший за 9 пунктів, то яку роздільну здатність достатньо задати при його скануванні?
Як впливає задання типу зображення на якість розпізнавання документу?
Скільки мов розпізнає FineReader?
Яку властивість мають мови групи Основні мови?
Що таке сегментація і в чому вона полягає?
Які різновиди блоків існують в FineReader?
Чи може користувач вручну виконати сегментацію і призначити різновиди блоків?
Чи можна призначити мову розпізнавання для кожного блоку – свою і як це зробити?
Які режими розпізнавання існують в FineReader?
В чому полягає розпізнавання з навчанням і коли його потрібно застосовувати?
В чому полягає режим фонового розпізнавання в і в чому його перевага?
Які формати зображень підтримує FineReader?
Як виконати перевірку розпізнаного тексту і в чому вона полягає?
Які різновиди вікон може містити робоча область вікна програми FineReader?
Як передати розпізнаний документ у середовище MS Word?
В які середовища можна передати розпізнаний документ з програми FineReader?

З повагою ІЦ “KURSOVIKS”!