Роздрукувати сторінку
Главная \ Методичні вказівки \ Методичні вказівки \ 839 Тема Перспективні методи боротьби із спамом Навчальний посібник Internet для користувача частина 2, НУДПСУ

Тема Перспективні методи боротьби із спамом Навчальний посібник Internet для користувача частина 2, НУДПСУ

« Назад

3.3. Перспективні методи боротьби із спамом

3.3.1. Використання нейронних мереж

Сам факт існування достатньо дорогих масових розсилок електронних листів рекламного характеру свідчить про те, що для багатьох користувачів Internet спам представляє великий інтерес.  Очевидно, що цей інтерес обумовлений змістом спам-листів. В той же час користувачі, які не цікавляться запропонованою тематикою, відносяться до спаму негативно. З цих причин основним критерієм фільтрації електронних листів може бути відповідність змісту електронного листа і інтересів користувачів:

де P- електронний лист, T- тематика електронного листа, {I} - множина (область) інтересів користувача, C - множина цільових листів,  S - спам.

Виходячи з можливостей потенційних експлуатантів системи захисту, формування  області інтересів користувачів необхідно реалізувати за допомогою одного або декількох фрагментів тексту на природній мові.   В якості таких фрагментів можуть використовуватися спеціальним чином оброблені цільові листи, а також безпосередньо введений текст. Можливою проблемою реалізації залежності (3.3) є визначення експлуатантами системи захисту, всієї області інтересів користувачів електронної пошти. На практиці може виявитися, що навіть кінцевому користувачу чітко визначити межі цієї області достатньо важко. При цьому межі області інтересів можуть змінюватися в часі. Тому багато  потенційно важливих листів можуть бути розцінені як спам. Для вирішення даної проблеми розділимо всі електронні листи на три групи: цільові листи, спам і нейтральні листи. В групу нейтральних потраплятимуть ті листи, тематика яких не належить ні множині інтересів користувачів, ні множині  тематик спама.  Враховуючи запропоновану класифікацію, модифікуємо критерій фільтрації (3.3):

де F – множина нейтральних листів, {Q} – множина тем спама. 

Практичний досвід, а також результати [30, 39, 49, 56, 65, 82] показують, що  спам це в основному текстові листи, які іноді мають графічні файли-вкладення. Основними тематичними напрямами спаму є:

- Реклама споживчих товарів (Rt). Рекламується реальний товар, і вказуються джерела (посилання на сайт або номер телефону) більш докладної інформації. Цікавою особливістю цього напряму спама є домінування в певні інтервали часу реклами конкретного виду товару. Наприклад, в російськомовній зоні Internet  в період 2006 року реклама лікарських препаратів склала близько 17% кількості спама.

- Реклама товарів і послуг "для дорослих" (Rp), програмного забезпечення і комп'ютерів (Rk), туристичних компаній (Ro), запрошення на семінари і тренінги (Rst), послуги з електронної реклами (Rer).

- Платні дзвінки. Рекламується товар та/або послуга і вказується номер телефону, дзвінки на який є платними (Rz).

- Підвищення рейтингу сайту. Лист містить інформацію з метою запрошення користувачів відвідати певний сайт (Rw).

- Фінансовий спам. До цього виду спама відносяться листи з рекламою різних фінансових пірамід, інвестицію або покупки акцій (Rf).

- Збір інформації. Одержувачу пропонують заповнити анкету і відіслати дані за вказаною адресою (Ri).

- Політичні або PR-акції. Цей вид спаму характерний в періоди загострення політичної обстановки (Rpr).

- Зараження програмами типу троянський кінь. При відкритті листа активізується троян, яка виконує деякі несанкціоновані дії, наприклад, збирає і посилає зловмиснику необхідну інформацію з комп'ютера (Wt).

- Фішинг. Це розповсюдження підроблених повідомлень від імені банків або фінансових компаній. Метою такого повідомлення є несанкціонований збір ідентифікаційних даних (паролів, пін-кодів, логінів) користувачів. Звичайно такий спам змушує користувача ввести свої ідентифікаційні дані, наприклад пароль для доступу до банківського рахунку на помилковому сайті банку. Одержані ідентифікаційні дані спамер може використовувати як для доступу до рахунку, так і для оплати покупок в інтернет-магазинах (Wf).

- Тестові розсилки.  Частіше всього представляють собою порожні листи (Tp), листи з декількома словами (Ts) або з безглуздим набором символів (Tb). З одного боку, це звичне тестування нового спамерского ПЗ. Проте такі листи часто проходять антиспам-фільтри (не містять спамерского контента), викликаючи у користувачів недовіру до  захисту. Ще одна негативна властивість пов'язана із створенням великих додаткових навантажень на канали зв'язку. Це може призвести до істотного зниження швидкості обміну електронною кореспонденцією на час проходження розсилки.

Модифікуємо (3.4), з врахуванням наведених сучасних тем спама:

де N – спам-листи за тематикою, що не відноситься ні до одної із перерахованих розповсюджених тем спаму.

Очевидно, що основою розрахунку (3.5) є визначення відповідності електронного листа інтересам користувача, або тематиці спаму. З позицій теорії штучного інтелекту визначення такої відповідності можливо віднести до класу задач спілкування людини з обчислювальною системою на природній мові. Відзначимо, що не зважаючи на значні успіхи в цілому даний клас задач далеко не вирішений. Тому пошук рішення слід обмежити, врахувавши існуючі можливості методик розуміння тексту і потреби системи захисту від спама. Слід враховувати, що система розпізнавання не обов'язково повинна зрозуміти зміст тексту електронного листа, інтереси користувача і тематики спама. Задача полягає в тому, що б порівняти формальний опис основного змісту вказаних текстів і віднести електронний лист до одного з наперед відомих класів. Більшість апробованих методів побудови формального опису базуються на семантичних мережах при створенні яких враховується частота використання в тексті різних слів, лексико-граматичні закономірності виявлені в тексті та імітаційна модель предметної області тексту. Одна із найбільш відомих  процедур визначення змісту отримала назву реферування тексту [18-23, 89-90]. Її особливістю є відсутність імітаційної моделі предметної області. Результатом застосування цієї процедури є короткий реферат представленого тексту. В крайньому випадку обсяг реферату може складати всього декілька слів, що вказують на тематику тексту. На сьогодні створення рефератів достатньо якісно відпрацьовано як на теоретичному. так і на практичному рівнях. При цьому порівняння текстів на основі їх рефератів довело свою ефективність завдяки широкому застосуванню в системах пошуку інформації в мережі Internet. Тому і  класифікацію електронних листів доцільно реалізувати на основі їх рефератів. Відзначимо, що методику байєсовської фільтрації спаму можливо представити як окремий випадок порівняння рефератів. Крім іншого, перевагами використання рефератів є:

- Формальне представлення реферату набагато менше від представлення початкового тексту. Відповідно для зберігання та обробки реферату потрібно менше обчислювальних ресурсів.

- Можливо автоматично розпізнавати та блокувати беззмістовні листи, які практично не розпізнаються більшістю сучасних систем захисту від спаму.

- Співставлення відносно коротких рефератів в значній мірі зменшить труднощі, пов'язані з різноманітністю мовних форм слів.

Алгоритм класифікації електронних листів, що надійшли з невідомої адреси, показаний на рис. 3.5. В алгоритмі передбачене створення множини рефератів, що відповідають як цільовим листам так і спаму на основі деякої навчальної множини відповідних листів. Крім того,  пропонується проводити визначення тематики листа на основі аналізу його текстової частини. Таким чином, листи з невідомої адреси без тексту, хай навіть із вкладеними файлами будуть розглядатися як спам.  Це твердження відповідає етиці використання електронної пошти, хоча є дещо прямолінійним.

Альтернативним шляхом реакції на подібні листи є їх тимчасове блокування з відправкою запиту на пояснення тематики листа. Кількість таких запитів можливо обмежити. Якщо за визначений час пояснення не надходить, то лист вважається спамом і знищується. В протилежному випадку аналізується зміст тексту листа.

В  алгоритмі не враховані технічні моменти, пов'язані з відкриттям електронного листа, визначенням кодування символів і т.і. Основним розрахунковим вузлом алгоритму є порівняння тематик листів на основі їх рефератів.

Задача порівняння рефератів за допомогою карти Кохонена та пружної карти

Основна трудність при порівнянні рефератів полягає в тому, що практично однаковий зміст може бути виражений за допомогою різної кількості слів, досить великої кількості різних мовних конструкцій, словосполучень та слів синонімів. Питання дещо  спрощується через те, що реферати можуть бути створені за однаковими правилами, що враховують необхідність зменшення вживаних мовних конструкцій. При цьому більшість сучасних методик формування рефератів базується на використанні семантичних мереж. В загальному випадку семантична мережа представляє знання у вигляді графа, вузли якого відповідають фактам, а дуги – відносинам або асоціаціям між поняттями. Достоїнством семантичних мереж є можливість визначення зв'язків між поняттями і специфічними правилами формування висновків, що визначаються за допомогою механізмів спадкоємства. Під семантичною мережею тексту розуміють безліч зв'язаних між собою значущих понять (слів і словосполучень), виділених з складу тексту. Кожний елемент семантичної мережі (поняття) характеризується своєю вагою і набором зв'язків з іншими елементами – контекстним вузлом. Вага елементу визначає відносну змістовну значущість вираженої їм теми в порівнянні із значущістю інших елементів. Вага зв'язку між парою елементів характеризує відносну змістовну зв'язність, відповідної першому елементу, з темою відповідної другому. Кожна вага елементу і вага зв'язку характеризується числовим значенням в наперед заданому діапазоні. Використання семантичних мереж дозволяє абстрагуватися від малоінформативних елементів формально-синтаксичної структури тексту (порядку слів, займенників і т.ін.) та представляє його структуру в термінах описуваних ситуацій (предикатів) і їх учасників (аргументів) в певних семантичних ролях. Проте, в задачі розпізнавання спаму, повне представлення значення тексту у формі семантичних мереж є надмірним і непродуктивним. Таке представлення може мати значний обсяг, що перевищує обсяг документу. В свою чергу обробка такого представлення вимагає розвинених нетривіальних засобів для пошуку і порівняння структур на графах, що у свою чергу призводить до необхідності використання значних обчислювальних ресурсів. Можливим виходом з цієї ситуації є представлення змістовного портрету у вигляді переліку елементарних значень-атрибутів, з оцінками їх інформативності для характеристики тексту. Традиційно при вирішенні цієї задачі використовуються частотні списки слів, які вживаються в тексті.  Проте  самі інформативні елементи значення, що описують відносини, виникають тільки на рівні синтагм, виділення яких вимагає вживання  алгоритмів синтаксичного аналізу. Доповнений правилами для генерації канонічної форми синтагм, синтаксичний аналіз-синтез дозволить описати кожний смисловий атрибут тексту у вигляді рядка, інваріантного до його граматичного виразу в різних фразах.

Можливість створення якісних рефератів підтверджуються поширеністю відповідних програмних продуктів, наприклад TextAnalyst, компанії "Мікро Системи" і Inxight Summarizer, створеної в Дослідницькому центрі Ксерокса. До задач, що вирішуються подібними програмними продуктами, відносяться:

- Формування словників базових понять предметної області (термінологічних словосполучень і слів) на базі множини текстів.

- Побудова баз знань на базі текстів предметної області з оцінкою відносної значущості понять і їх змістовних зв'язків.

- Створення тематичної структури тексту. Тематична структура описує зміст аналізованих текстів у вигляді ієрархії зв'язаних тем і підтем.

- Визначення списку найбільш значущих словосполучень (реферату) початкового тексту. При цьому кожне речення реферату може характеризуватися ступенем значущості.

- Рубрикація (класифікація) текстів по заданих темах.

- Змістовний пошук інформації. Функція змістовного пошуку дозволяє отримати відповідь на запит, сформований у вигляді фрази на природній мові, словосполучень або просто набору ключових слів. При цьому інформація відповідь може мати іншу граматичну форму або взагалі не згадуватися явно в тексті запиту, проте мати змістовний зв'язок з текстом запиту.

Відзначимо, що вирішення подібних задач необхідне і при класифікації електронних листів. Автором [111], були проведені експерименти по складанню рефератів спам-листів з тематик: запрошення на семінари, реклама промислових товарів та реклама побутових послуг. В якості інструментального засобу реферування було використано пакет TextAnalyst 2.01, доступний на Web-сайті за адресою www.analyst.ru, який дозволяє якісно реферувати тексти на російській, українській та англійській мовах. Приклад реферату електронного листа з запрошенням  на семінар по темі "Кодекс адміністративного судочинства України" показаний на рис. 3.6. Практично для всіх випадків обсяг файлу реферату склав приблизно 5-10% від обсягу файлу аналізованого тексту, при задовільній як для системи захисту якості змісту реферату.  Однак реферування листа призвело і до негативного наслідку – втрати важливих атрибутів листа (заявленої тематики, зворотної адреси і т.і.). Практика показує, що ці атрибути також можуть досить інформативно сигналізувати про тематику листа, а значить повинні використовуватись.  Аналіз кореспонденції показує, що атрибути в основному представлені в  перших 10 та останніх 30 словах листа. Тому до складу реферату доцільно долучити ще й вказані слова. Окрім цього, зроблена спроба складання реферату порожнього файлу і беззмістовних текстів. Система TextAnalyst повідомила про те, що дані тексти не підлягають реферування, оскільки  є неправильними.

В інтерпретації системи захисту, листи  з таким вмістом були б класифіковані як спам, що безумовно, є позитивним моментом. В той же час, можливості змістовного пошуку і рубрикації  тексту за допомогою засобів реферування не відповідають потребам системи захисту від спаму. Так змістовний пошук слова будівля в листі, присвяченому рекламі житла закінчився безрезультатно. При цьому в листі були присутні слова синоніми - житло та дім. Результати наукових досліджень в області нейронних мереж показують, що якісно вирішити питання рубрикації і змістовного пошуку можливо за рахунок порівняння рефератів і/або тематичної структури текстів з використанням граматичних словників. Не зважаючи на вказані недоліки результати експериментів підтвердили задовільну якість, як складання тематичної структури аналізованих листів, так і формування реферату.  Відповідно висновкам найкових робіт в галузі розпізнавання текстової інформації, порівняння рефератів доцільно реалізувати за допомогою нейроних мереж типу карти Кохонена та ймовірністних нейронних мереж.

Ідеологія Кодексу адміністративного судочинства.

На що забувають звертати  увагу  суди і учасники адміністративного процесу. 

Завдання адміністративного судочинства.

Проблеми визначення юрисдикції адміністративних судів:

- справи адміністративної юрисдикції (поняття публічно-правового спору, суб‘єкт  владних повноважень);

- адміністративна юрисдикція і справи про адміністративні правопорушення.

Проблеми визначення підсудності справи (предметної, територіальної та  інстанційної):

- порядок створення адміністративних судів;

- визначення підсудності після створення адміністративних судів;

Провадження в адміністративній справі  перша інстанція, особливості.

Строки для звернення до адміністративного суду.

Рис.3.6  Приклад реферату електронного листа

Відзначимо, що використання рефератів не є обов'язковим. Приблизно класифікувати зміст за допомогою нейронних мереж можливо і на основі повного тексту листа. Проте застосування рефератів знімає багато технічних труднощів при програмній реалізації. Наприклад, програма обробки електронних листів для визначення в них інформативних слів була розроблена автором в середовищі Microsoft Office без використання високоефективних та дорогих промислових програмних засобів обробки тексту. Це ж стосується і програмної реалізації нейронних мереж. В протилежному випадку велика кількість різноманітних слів, що входять до складу тексту листа визначає загальну кількість вхідних параметрів, а значить і мінімальний обсяг обчислювальних потужностей, який перевищує обмеження офісних програмних пакетів. 

Розглянемо експериментальні дані, отримані в роботі [111]. Як статистичний матеріал було використано 100 електронних листів по таким тематикам як запрошення на різнопланові семінари, реклама побутових послуг та реклама промислових товарів. Листи були отримані на протязі декількох тижнів 2006 року. Можна вважати, що на практиці листи однієї із вказаних тематик є цільовими, а інші листи – спам.  Тому  класифікація листів по тематикам  в першому наближені адекватна розпізнаванню спаму. Зазначимо, що задача порівняння рефератів відноситься до класу задач аналізу тексту. Відповідно результатам [111] для її вирішення можливо використовувати такі типи нейронних мереж як карта Кохонена, пружна карта, PNN (ймовірністна нейронна мережа) та синаптична нейронна мережа.

Алгоритм застосування карти Кохонена та пружної карти для вирішення конкретної задачі складається з таких етапів: 1 - визначення номенклатури та допустимих величин вхідних параметрів, 2 - підготовка навчальної вибірки, 3 - нормування вхідних параметрів навчальної вибірки, 4 - визначення кількості кластерів, 5 - визначення виду сітки зв’язків нейронів шару розпізнавання, 6 - вибір параметрів навчання НМ, 7 - навчання НМ, 8 - візуалізація та верифікація результатів навчання, 8 - якщо результати не задовільні необхідно провести навчання з новими параметрами НМ. Для цього повторити п.4-8.

Таким чином для розв'язання практичної задачі необхідно  сформувати множину вхідних параметрів (п.1-3), розробити архітектуру НМ (п.4-6) та провести його навчання (п. 7-9). Основою формування множини вхідних параметрів нейтронної мережі послужила методика [111], яка передбачає:

  1. Формування із всіх піддослідних текстів словника інформативних слів. В словник не включаються малозначущі, службові слова та слова-зв’язки. Наприклад в словник не включаться слова:  в, на, до, а, біля, та.

  2. Якщо сформованому словнику присутні декілька слів слів-синонімів, то вони замінюються одним словом. Наприклад, слова-синоніми машина, автомобіль, легковик, джип, можливо замінити словом автомобіль. Відзначимо, що заміна синонімів потребує використання спеціальних граматичних словників в яких враховується тематика тексту. 

  3. Розрахунок для кожного із текстів кількості зустрічі кожного із інформативних слів в деякій канонічній формі. Під канонічною формою слова будемо розуміти його запис в такому вигляді, який дозволяє формувати будь-яку із його словоформ. Причиною застосування канонічних форм є те, що в українській та російській мовах більшість слів можуть бути представлені в декількох словоформах. Застосована методика визначення канонічних форм слів, яка передбачає використання словників словоформ. При цьому всі слова записуються прописними символами.

  4. Приведення слів до визначеної для кожного слова  канонічної форми. Причиною цього є те, що в українській та російській мовах більшість слів можуть бути представлені в декількох словоформах.  Методика приведення передбачає: призначення кожному слову в канонічній формі порядкового номера та розрахунок для кожного із текстів частоти зустрічі в ньому кожного  з визначених слів:

де – частота зустрічі канонічної форми j-го слова в і-му тексті, – кількість словоформ j-го слова в і-му тексті, – кількість слів в і-му тексті.

Таким чином, кількість слів словника дорівнює кількості вхідних параметрів нейронної мережі. Попередній аналіз статистичного матеріалу, проведений в [111], виявив, що кількість слів в канонічній формі в представлених електронних листах перевищує 1000. Після реферування загальна кількість інформативних слів в канонічній формі була зменшена до 108. Відзначимо, в багатьох випадках листи однієї тематики не значно відрізнялись між собою. Наприклад, було отримано 12 листів з запрошенням відвідати семінар по темі “Логістика”. Різниця між листами полягала тільки в даті проведення семінару, а перелік інформативних слів залишився незмінним.  Зрозуміло, що з точки зору розпізнавання спаму означені листи повинні відноситись до одного класу. Тому листи з однаковим набором інформативних слів були виділені в окремі групи. Темі реклама побутових послуг відповідає група листів №1, темі запрошення на семінари відповідають групи листів №2,3,4,5,6,7,9,12,14, темі реклама промислових товарів - №8,10,11,13. Зміст та класифікація листів представлені в табл. 3.1.

Таблиця 3.1

Тематика груп листів

№ групи

Зміст групи листів

Тематика групи

1

2

3

1

Реклама встановлення супутникової антени

Реклама побутових послуг

2

Семінар по темі - “Передача житлового будинку в експлуатацію”

Запрошення на семінари

3

Семінар по темі - “Як знайти клієнта по телефону?”

4

Семінар по темі - “Кодекс адміністративного судочинства України”

5

Семінар по темі - “Сучасні підходи логістики”

6

Семінар по темі - “Сучасний маркетинг”

7

Семінар по темі - “Сучасний менеджмент”

9

Семінар по темі - “Психологія споживача”

12

Семінар по темі - “Судові спори з податковими органами”

14

Семінар по темі - “Збільшення власного грошового потоку”

13

Реклама плазмового телевізора

Реклама промислових товарів

8

Реклама обігрівача

10

Реклама охоронної сигналізації

11

Реклама систем відеонагляду

Зазначимо, що для розрахунку кількість слів в канонічній формі в роботі [111] застосотвано спеціальну програму.  Після розрахунку кількості канонічних форм інформативних слів за допомогою (3.6) були розраховані частоти цих слів для кожної із груп листів.  Вказані частоти використані в якості вхідних даних карти Кохонена та пружної карти.  Крім того, до складу вхідних параметрів ввійшли: назва групи листів та відносна кількість інформативних слів (Iw). Останній параметр розраховується як відношення кількості інформативних слів (I) до загальної кількості слів реферату листа (S).

Застосовувався цей параметр для покращення розпізнавання беззмістовних листів. Фрагмент вхідних даних показаний в табл. 2.8. В роботі [111] карта Кохонена моделювалась за допомогою пакету Deductor Studio 4.3, а пружна карта за допомогою пакету ViDaExpert. Вибір цих засобів пояснюється їх апробованістю та доступністю при некомерційному використанні.  При побудові карти Кохонена прийнято: форма сітки зв'язків - прямокутник (16´12), форма сітки зв'язків - гексагон, кількість кластерів - 5, кількість навчальних епох - 500, h=0.1, r=6  на початку навчання, h=0.005, r=1 в кінці навчання.

Таблиця 2.8

Величини вхідних параметрів карт Кохонена та ПК

№ групи листів

Відносна кількість інформативних слів

СТОИМ

ГРН

КОМПЛЕКТ

ГОД

 1

0,12

0,04

0,04

0,04

0

 5

0,2336

0,0263

0,0263

0

0,0263

 6

0,4211

0

0

0

0,0238

Розділена на кластери карта Кохонена представлена на рис. 3.7.

A, B, C, D, E - номера кластерів, 1, ..., 14 - номера груп листів з однаковим набором інформативних слів,    межі кластерів,    межі комірок карти.

На рис.3.7 номери 8,10,11,13 відповідають групам листів по темі реклама промислових товарів, а номер 1 відповідає листам по темі реклама побутових послуг. Всі інші листи є запрошеннями на семінари. Можна зробити висновок, що карта Кохонена якісно розділила листи на дві основні теми - реклама (кластери C та D) та запрошення на конференції (кластери A,B,E). Проте не правильно віднесла до одного кластеру листи з рекламою промислових товарів та листи з рекламою побутових послуг. Зазначимо, що якість відображення однотипних листів за допомогою класичної карти Кохонена дозволяє провести їх приблизну класифікацію самим користувачем.  Отримані результати підтверджені аналогічними експериментами за допомогою власних програмних засобів кластеризації даних на основі карти Кохонена.

При побудові карти пружної карти прийнято: форма сітки зв'язків - квадрат (9´9), форма сітки зв'язків  - квадрат, кількість кластерів - 10. Навчання ПК було розділене на дві фази. Тривалість першої фази 500 навчальних епох, тривалість другої - 3000 навчальних епох. На початку навчання h=0.07, r=10, в кінці навчання   h=0.003, r=1. Відображення багатовимірної площини навчальних даних на площину головних компонент параметрів навчальних даних показане на рис. 3.8. Кожній точці на рис. 2.8 відповідає своя група листів.

Групи  листів:

1 - реклама промислових товарів, 2 - реклама побутових послуг

Рис.3.8   Відображення навчальних даних на пружну карту

Із рис. 3.8 видно, що групи листів по темі реклама промислових товарів та реклама побутових послуг відображаються досить компактно. Це вказує на можливість їх швидкої та якісної класифікації користувачем шляхом візуального аналізу пружної карти. Зазначимо, на рис. 3.8 межі кластерів не показані  через те, що кластери пружно карти зайняли несуміжні комірки і їх відображення ускладнює процес візуального аналізу. Пружна карта розділила листи на п'ять кластерів. Листи по темі реклама промислових товарів та по темі реклама побутових послуг були виділені в окремі кластери. Листам із запрошенням на семінари було призначено три кластери. Інші п'ять кластерів залишились порожніми.

В [111] проведені числові експерименти з метою дослідження впливу параметрів настройки карти Кохонена та пружної карти на відображення топографічного шару та на результати кластеризації. Зазначимо, що деякі з цих параметрів, наприклад початковий розподіл вагових коефіцієнтів, можуть приймати випадкові значення. Результати експериментів показали:

- Відображення топографічного шару на площину головних компонент практично не змінюється.

- Зі зміною параметрів результати кластеризації значно змінюються. Однак можливо визначити деякі величини параметрів, при яких якість кластеризації залишається задовільною. Так для пружної карти крім вказаних величин навчальних параметрів доцільно використовувати ієрархічний метод кластеризації.

З повагою ІЦ “KURSOVIKS”!