Роздрукувати сторінку

Главная \ Методичні вказівки \ Методичні вказівки \ 2367 Лекція 9 на тему Інформаційні критерії оптимізації параметрів функціонування ІС, що навчається, Основи проектування інтелектуальних систем

Лекція 9 на тему Інформаційні критерії оптимізації параметрів функціонування ІС, що навчається, Основи проектування інтелектуальних систем

« Назад

Лекція 9 на тему Інформаційні критерії оптимізації параметрів функціонування ІС, що навчається

Центральним питанням інформаційного синтезу ІС є оцінка функціональної ефективності процесу машинного навчання, яка визначає максимальну достовірність рішень, що приймаються на екзамені.

Серед інформаційних мір для оцінки функціональної ефективності СППР, що навчається, перевагу слід віддавати статистичним логарифмічним критеріям, які дозволяють на відміну від традиційних статистичних критеріїв працювати з навчальними вибірками відносно малих обсягів. Цей феномен можна пояснити згладжуючою властивістю логарифмічної функції. В методах ІЕІ-технології найбільше використання знайшли інформаційні КФЕ машинного навчання, побудовані на основі модифікацій ентропійного критерію Шеннона [] та інформаційної міри Кульбака [].

Подамо нормований ентропійний КФЕ навчання ІС розпізнавати реалізації класу у вигляді:

де – кількість умовної інформації, що обробляється на -му кроці навчання ІС розпізнавати реалізації класу ; – максимальна можлива кількість умовної інформації, одержаної на -му кроці навчання; – апріорна (безумовна) ентропія, що існує на -му кроці навчання системи розпізнавати реалізації класу , яка обчислюється за формулою

де – безумовна ймовірність прийняття на -му кроці навчання гіпотези ; –апостеріорна (умовна) ентропія, що характеризує залишкову невизначеність після -го кроку навчання системи розпізнавати реалізації класу , яка обчислюється за формулою

де – апостеріорна ймовірність прийняття на -му кроці навчання рішення за умови, що попенредньо була прийнята гіпотеза .

Для двохальтернативної системи оцінок (М = 2) і рівноймовірних гіпотез, що характеризує найбільш важкий у статистичному розумінні випадок прийняття рішень, після відповідної підстановки ентропій (9.2) і (9.3) у вираз (9.1) та заміни відповідних апостеріорних ймовірностей на апріорні за формулою Байєса ентропійний критерій для оптимізації геометричних параметрів гіперсферичних контейнерів класів розпізнавання набуває вигляду.

Приймемо до уваги, що апріорні умовні ймовірності у формулі (9.5) є точнісними характеристиками двохальтернативних рішень:

– перша достовірність;

– помилка першого роду;

– помилка другого роду;

– друга достовірність.

Оскільки перша достовірність і помилка першого роду є ймовірностями подій однієї групи, то їх сума дорівнює.

Після заміни у формулі (9.5) умовних імовірностей на відповідні їм точнісні харакиеристики отримаємо ентропійний КФЕ навчання системи у вигляді

де – дистанційна міра, яка визначає радіуси гіперсферичних контейнерів, побудованих в радіальному базисі простору Хеммінга і від якої залежать значення точнісних характеристик.

Оскільки точнісні характеристики є функціями відстані вершин векторів-реалізацій від геометричних центрів контейнерів відповідних класів розпізнавання, то критерій (9.6) є нелінійний функціоналом від точнісних характеристик. Крім того, згідно з властивостями інформаційних мір він не є взаємо-однозначним, що потребує в процесі машинного навчання знаходження робочої (допустимої) області визначення його функції.

Розглянемо інформаційну міру Кульбака, яка подається як добуток відношення правдоподібності на міру відхилень відповідних розподілів імовірностей.

Логарифмічне відношення повної ймовірності правильного прийняття рішень про належність реалізацій класів і контейнеру класу до повної ймовірності помилкового прийняття рішень для двохальтернативних рішень має вигляд

де – безумовна ймовірність появи реалізації класу ; –безумовна ймовірність появи реалізації найближчого (сусіднього) класу ; – гіпотеза про належність контейнеру класу своєї реалізації; – альтернативна гіпотеза.

Із урахуванням (9.7) при допущенні згідно із принципом невизначеності Лапласа-Бернуллі, що апостеріорні гіпотези є рівноймовірними, тобто і після переозначення апріорних умовних імовірностей відповідними точнісними характеристиками міра Кульбака набирає вигляду.

Нормовану модифікацію критерію (9.8) представимо у вигляді,

де – значення інформаційного критерію при і для формули (9.6).

Нормування критеріїв оптимізації є доцільним при порівняльному аналізі результатів досліджень і при оцінці ступеня близькості реальної ІС до потенційної.

Розглянемо процедуру обчислення модифікації ентропійного КФЕ за Шенноном для двохальтернативного рішення при рівноймовірних гіпотезах згідно з формулою (9.6). Оскільки інформаційний критерій є функціоналом від точнісних характеристик, то при репрезентативному обсязі навчальної вибірки необхідно користуватися їх оцінками

де - кількість подій, які означають належність реалізацій образу контейнеру класу , якщо дійсно ; – кількість подій, які означають неналежність реалізацій контейнеру класу , якщо дійсно ; - кількість подій, які означають належність реалізацій контейнеру класу , якщо вони насправді належать класу ; - кількість подій, які означають неналежність реалізацій контейнеру класу , якщо вони насправді належать класу ; n_min- мінімальний обсяг репрезентативної навчальної вибірки.

Після підстановки відповідних позначень (9.10) у вираз (9.6) одержимо робочу формулу для обчислення в рамках ІЕІ-технології ентропійного інформаційного КФЕ навчання ІС розпізнаванню реалізацій класу :

Робоча модифікація критерію Кульбака після відповідної підстановки оцінок (9.10) у вираз (9.8) набуває вигляду

де – достатньо мале число, яке вводиться для усунення проблеми поділу на нуль.

У виразі (9.12) значення константи на практиці рекомендується вибирати в межах .

Розглянемо схему обчислення коефіцієнтів у формулі (9.11).

На рис. 9.1 показано структуру навчальної матриці при побудові оптимального контейнера для класу , яка складається з векторів реалізацій двох найближчих класів: і відповідно.

Рисунок 9.1 – Структура навчальної матриці

Алгоритм обчислення коефіцієнтів, і у формулі (9.11) має такий предикатний вигляд:

де – вектори-реалізації класів і відповідно, які аналізуються на -му кроці навчання системи.

Таким чином, оскільки розглянуті інформаційні критерії є функціоналами як від точнісних характеристик рішень, що приймаються, так і від дистанційних критеріїв, то їх можна розглядати як узагальнення відомих статистичних і детермінованих (дистанційних) критеріїв оптимізації параметрів функціонування здатної навчатися ІС.

Контрольні запитання до лекції №9

1 Який вигляд має формула безумовної (апріорної) ентропії? Що вона характеризує при прийнятті рішень?

2 Який вигляд має формула умовної (апостеріорної) ентропії? Що вона характеризує при прийнятті рішень?

3 Який вигляд має формула нормованого критерію Шеннона?

4 Що називається першою достовірністю?

5 Що називається помилкою першого роду?

6 Що називається помилкою другого роду?

7 Що називається другою достовірністю?

8 Який зв’язок має ентропійний критерій Шеннона з точнісними характеристиками прийняття рішень?

9 Як обчислити оцінки точнісних характеристик?

10 Який вигляд має робоча формула критерію Шеннона?

11 Яким умовам повинна задовольняти робоча область визначення функції інформаційного критерію?

12 Яку конструкцію має критерій Кульбака?

13 Виразіть через точнісні характеристики повну ймовірність правильного прийняття рішень.

14 Виразіть через точнісні характеристики повну ймовірність неправильного прийняття рішень.

15 Наведіть аналітичну формулу критерію Кульбака як функцію від точнісних характеристик.

16 Наведіть робочу формулу критерію Кульбака.

17 Який вигляд має нормований критерій Кульбака?

18 За яких умов значення критерію Кульбака , що обчислюється за формулою (2.7.6), буде максимальним?

19 Яке максимальне значення має критерій Кульбака, що обчислюється за формулою (4.4), при і ?

З повагою ІЦ "KURSOVIKS"!