Тема Недоліки поширених методів розпізнавання спаму Навчальний посібник Internet для користувача частина 2, НУДПСУ
« Назад3.2.2. Недоліки поширених методів розпізнавання спаму
Як вже було зазначено, сучасні методи боротьби із спамом можливо розділити на законодавчі, організаційні та програмно-технічні. Розглянемо останні. Вони функціонують по принципу: розпізнання спаму - блокування (знищення) спаму. Відзначимо, що блокування розпізнаного спаму не викликає труднощів. При цьому, задача розпізнавання спаму потребує доопрацювання, хоча це і суперечить рекламним заявам провідних виробників антиспамових засобів. Наприклад, відповідно рекламних заявок, термін блокування нового виду спаму провідними поставниками поштових послуг в мережі Internet становить близько 20-30 хвилин. Проте при загальновідомій швидкості розсилки 2000000-3000000 листів за годину багато користувачів все ж отримають спам. Крім того, засоби захисту поставників поштових послуг орієнтовані в основному на розпізнавання масових розсилок, а практичний досвід свідчить, що обсяг сучасних розсилок спаму може знаходитись в межах 100-200 адресатів. Це може бути запрошення на тренінг чи семінар або реклама товару в межах окремого міста. Однак, велика кількість організацій, що розсилає такі запрошення та рекламні об'яви призводить до значного загального обсягу спаму. Розглянемо недоліки загальнопоширених методів розпізнавання спаму. Метод чорного, білого та сірого списків. Метод базується на аналізі зворотної IP-адреси листа. Всі листи, відправлені з IP-адрес, занесених в чорний список, знищуються ще на поштовому сервері. Адреса вноситься в чорний список на основі висновку користувача, що, лист є спамом. Від адресатів із білого списку отримання поштових повідомлень дозволено. В випадку, коли IP-адреса листа відсутня як в чорному, так і в білому списках, відправнику автоматично надсилається запит на авторизацію, а IP-адреса заноситься в тимчасовий сірий список. Вважається, спамер не буде надсилати підтвердження про відправку свого листа. Тому, якщо на протязі визначеного терміну підтвердження про відправку листа від невідомого відправника не надходить, то його адреса заноситься в чорний список, а повідомлення знищується. Основний недолік даного методу полягає в тому, що IP-адреса не обов'язково вказує на джерело спама. Наприклад, спам може прийти з динамічної IP-адреси, або розсилка здійснена без відома власника IP-адреси. Використання сірого списку доцільне тільки при невеликому обсязі листування з обмеженим колом осіб. В протилежному випадку ведення сірого списку потребує великих затрат на періодичну переконфігурацію. Крім того сучасні засоби розповсюдження спаму дозволяє генерувати підтвердження відправки спам-листа. Метод фіксації масових розсилок електронних листів. Листи класифікуються як спам, якщо обсяг відправки електронної пошти з однієї адреси (з однієї підмережі) за короткий термін часу перевищує певну граничну величину, наприклад 100000 листів за годину. Недоліками методу є необхідність контролю за практично всім простором поштових відправлень Інтернет, що потребує значних затрат. Крім того метод неефективний при невеликих спам-розсилках. Метод розпізнання спаму по ключовим словам (словосполученням), які визначаються користувачем у вигляді набору правил. Даний метод не знайшов широкого розповсюдження через складнощі при формуванні вказаних правил. Метод байєсовської фільтрації. Кожному слову або тегу HTML, що зустрічається в електронній переписці присвоюється два значення: ймовірність його присутності в спамі (z) та ймовірність його присутності в звичайних листах (1-z). Величину z називають спам оцінкою слова. Для кожного нового листа за допомогою формули Байєса розраховується загальна спам-оцінка листа (Z): де N - кількість слів в листі. Відзначимо, що в деяких антиспамових засобах застосовуються більш складні вирази розрахунку спам-оцінки. При цьому ймовірності z визначаються за допомогою спеціальних словників, або/та в процесі статистичного аналізу листів конкретного користувача. Якщо величина Z менша від деякого граничного значення (D), то лист класифікується як спам. В якості основного недоліку байєсовської фільтрації вказують на недостатню адекватність виразу (3.2) процесу розпізнавання спаму. Одним із наслідків цього є висока ймовірність пропуску спаму, якщо в листі мало слів з високою спам-оцінкою. Вказана обставина використовується спамерами для обходу та компрометації захисту. Так для обходу захисту рекламні листи модифікуються за рахунок використання слів синонімів та словосполучень ідентичних за змістом, але різних за набором слів. Скомпрометувати захист може безглуздий лист, що складається з набору нейтральних слів. Таким чином, жоден з існуючих методів розпізнавання не дозволяє адекватно реагувати на сучасні методи формування та розповсюдження спам-листів. В той же час навіть некваліфікований користувач легко проведе розпізнавання на основі співставлення своїх інтересів зі змістом листа. Тому в [111] пропонується методика автоматичного розпізнавання спаму за допомогою ймовірністних та семантичних нейронних мереж, функціонування яких багато в чому повторює інтелектуальну діяльність людини. Ще одним типом нейронних мереж, застосування якого може підвищити ефективність розпізнавання спаму є мережа (карта) Кохонена. На відміну від ймовірністних та семантичних цей тип нейронних мреж пристосований не тільки для автоматичної класифікації, але й для представлення значного обсягу образів у вигляді зручному для їх класифікації користувачем. Потенційно це дозволяє використати в якості управляючого елемента людину-користувача, що може значно підвищити ефективність розпізнавання спаму. З повагою ІЦ “KURSOVIKS”! |