Проект системи класифікації текстового спам контенту на базі машинного навчання

Використання методів машинного навчання та технологій штучного інтелекту для вирішення проблем виникнення, розповсюдження та фільтрації спаму в Україні. Використання програмного забезпечення Jupiter notebook для обробки й аналізу даних поштових серверів.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык украинский
Дата добавления 19.09.2024
Размер файла 389,7 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://allbest.ru

Проект системи класифікації текстового спам контенту на базі машинного навчання

Мазуренко О.Д. Мазуренко Олександр Дмитрович магістрант Міжрегіональна академія управління персоналом, Україна, Рудніченко М.Д. Рудніченко Микола Дмитрович кандидат технічних наук, доцент, доцент кафедри інформаційних технологій Національний університет «Одеська Політехніка», Україна, Шибаєва Н.О. Шибаєва Наталя Олегівна кандидат технічних наук, доцент, доцент кафедри інформаційних технологій Національний університет «Одеська Політехніка», Україна, Отрадська Т.В. Отрадська Тетяна Василівна кандидат технічних наук, доцент, директор Одеський коледж комп'ютерних технологій «Сервер», Україна

Анотація

У роботі розглянуто основні теоретичні особливості вирішення завдань класифікації текстового спам-контенту на базі використання алгоритмів та моделей машинного навчання. Проаналізовано проблематику виникнення спаму, розроблено структуру проекту системи у вигляді прикладного програмного забезпечення, сформовано діаграму послідовності процесів навчання моделі машинного навчання. Проведено дослідження створених моделей на базі розробки Jupiter notebook із використанням мови програмування Python

Ключові слова: класифікація спаму, машинне навчання, штучні нейронні мережі, проектування систем

Вступ

В даний час все більш актуальними стають напрямки використання методів та технологій штучного інтелекту для вирішення прикладних завдань з метою автоматизації аналітичних та обчислювальних процесів з обробки та аналізу даних [1]. Завдяки активному розвитку програмних засобів та апаратного забезпечення у сучасних дослідників з'являється ефективний та функціональний інструментарій для побудови алгоритмів та моделей інтелектуальних систем з метою проведення обчислювальних експериментів та підбору оптимальних параметрів роботи таких моделей для конкретних науково-практичних завдань, у тому числі для задач фільтрації спаму [2].

Однією з найчастіше використовуваних підходів на вирішення зазначених завдань є методи машинного навчання, дозволяють здійснювати чисельні експерименти різного профілю з необхідними обмеженнями [3]. Це дозволяє автоматизувати операційні процеси і виключити з процедури фільтрації спаму людський фактор, суттєво зменшивши тимчасові витрати на перевірку поштових повідомлень у ручному режимі.

Негатив від спаму, що розсилається, зокрема від нав'язливих рекламних оголошень, антирекламних акцій, шахрайських розсилок (нігерійські листи та фішинг), нав'язування листів релігійної тематики з проханнями надання матеріальної допомоги, полягає в тому числі і в частому включенні в дані листи комп'ютерних вірусів.

Ключовими серед них є поштові черв'яки, які зазвичай пересилаються за допомогою електронної пошти [4].

Додатковими негативними факторами спаму є підвищення завантаженості каналів обміну інформацією, зростання трафіку, збільшення обчислювального навантаження на поштові сервери, зростання тимчасових витрат на перегляд і сортування поштових повідомлень користувачами, пропадання корисних листів, некоректна і не точна робота спеціалізованих програм детекції спам-контенту.

На сьогоднішній день найбільшим каналом отримання спаму є електронна пошта, загальна частка вірусів та спаму у її глобальному трафіку становить від 80 до 90 % [5]. Відправники спаму часто копіюють електронні адреси за допомогою спеціалізованих програмних скриптів або вручну, використовуючи підроблені Web-сторінки, списки автоматичного розсилки, сайти електронних оголошень, гостьові книги, різні форуми, чати.

Характерним аспектом даного процесу є той факт, що вартість розсилки спаму дуже низька для його відправника, на відміну від одержувача, який може бути на пакеті доступу до мережі Інтернет із платним трафіком [6].

Мета роботи полягає у дослідженні можливостей використання методів машинного навчання для вирішення задачі класифікації текстового спам- контенту.

Основна частина

У якості набору даних для аналізу з метою апробації та дослідження моделей МН викораємо датасет Enron-Spam. Дані структуровано по 6 каталогах у вигляді текстових файлів, відповідно до класу spam відносяться тексти з елементами спам-контенту, а до ham - інформативні повідомлення, які не є спамом. Приклад отримання метаданих за обраним набором даних наведено на рис.1. Це є складовою файлу Summary.txt та містить кількість поштових повідомлень, дату отримання першого повідомлення, останнього повідомлення, наявність дублів чи повторів у даних та наявність процесу кодування, а також пропорцію щодо відносин кількості спам записів та звичайного контенту відповідно.

Таким чином процес аналізу буде заснований на створенні моделей МН на агрегованих вибірках з обраного датасету, їх навчанні та тестуванні, як на фрагментах даного набору даних, так і з урахуванням даних, які будуть введено безпосередньо користувачем.

Рис. 1. Приклад отримання метаданих за обраним набором даних

В якості моделей МН, вибраних для дослідження ефективності класифікації повідомлень на наявність в них спаму обрані: наївний класифікатор байесовського (NB), легке градієнтне форсування на базі алгоритму вирішальних дерев (LGBM) і глибока повнозв'язна нейронна мережа - ШНМ (DNN). До основних можливостей створеної системи відносяться: завантаження даних, агрегація даних, передобробка даних, розвідувальний аналіз даних, нормалізація даних, імпорт та підключення моделей МН до об'єктів класу робочого розташування, підбір гіперпараметрів моделей, поділ вибірки даних на тренувальну та тестову, навчання та валідація моделей, оцінка метрик точності класифікації, візуалізація графічних діаграм та таблиці помилок, введення повідомлень користувача для класифікації у результаті виконання алгоритму, оцінка повідомлень користувача щодо спаму (спам/не спам) відносно запису даних.

Для навчання створеної моделі ШНМ використовується модифікований алгоритм зворотного поширення помилки одна із методів навчання багатошарових нейронних мереж прямого поширення.

Порядок виконання алгоритму зворотного поширення помилки у загальному вигляді має вигляд:

- Ініціалізація синаптичних ваг випадковими значеннями.

- Вибір навчальної пари з навчальної множини та подати вхідний вектор даних на вхід мережі.

- Обчислити значення на вихідних нейронах мережі.

- Обчислити відмінності між вихідними значеннями мережі та необхідним значенням.

- Модифікація ваги мережі для мінімізації помилки.

- Повторювати зазначені кроки для кожного вектора навчальної множини доти, доки помилка на всій множині не досягне прийнятного рівня.

Вибірка даних, що надходить, по тексту листів обробляється на етапі отримання вхідних даних, після чого оброблений і нормалізований набір даних у бінарному вигляді надходить на вхід процесу ініціалізації моделі МО, на виході якої формується навчена модель, після чого здійснюється оцінка точності її роботи. Далі у разі, якщо значення оцінок точності роботи моделі є високими, навчена модель може бути серіалізована і застосована для здійснення класифікації текстів, що задаються користувачем, і видачі результатів в інтерфейс. Для моделювання взаємодії між логічними модулями програмного забезпечення та позначення процесів передачі та обміну даними між ними доцільно застосування діаграм послідовності дій.

Діаграма послідовностей дій навчання та використання моделі МН наведена на рис. 2.

Рис. 2. Діаграма послідовності процесів навчання моделі МН у системі

Dataset, що надходить через модуль імпорту даних завантажується у програму і з допомогою модуля нормалізації обробляється до створення підсумкового масиву векторів всім основ слів письма.

Передані дані на вхід до модуля навчання моделей МН використовуються як основа для її навчання після створення та конфігурації. На підставі проведення процесу навчання здійснюється оцінка точності роботи моделі МН та побудова графіка помилки її роботи.

Після навчання та збереження моделі МН стає можливим її використання для класифікації текстів, введених користувачем через поле модуля введення та відображення отриманих результатів за допомогою модуля інтерпретації.

Практичне дослідження створених моделей МН у системі виконано на базі розробки Jupiter Notebook. Для оцінки співвідношення значень метрик точності та повноти кожної моделі та їх зіставлення потрібно скласти окрему візуалізацію. Криві відносини точності та повноти моделей МО наведені у вигляді графіків на рис. 3.

Рис. 3. Криві відносини точності та повноти моделей МН

Як можна помітити порогові значення розривів кожної з даних кривих близькі за значенням, але дещо відрізняються (0,38 для моделі наївного байєсу, 0,5 для градієнтного легкого форсування і 0,27 для глибокої нейронної мережі) відповідно. Зокрема, значення метрики F1 для NB становить 0,976, для LGBM = 0,987 і 0,992 для DNN, що підтверджує наявність точно на невеликі частки відсотка у середньному.

машинний навчання програмний сервер спам

Висновки

Створене програмне забезпечення може бути застосоване у прикладних сферах для автоматизації аналізу текстових повідомлень не тільки у електроній пошті, але й у соціальних мережах, месенджерах, чат-ботах та інших засобах обміну текстовими повідомленнями.

Список використаних джерел

[1] Добровольська, Н.Ю., Гаврилова, А.А. (2020): Детекція пошукового спаму шляхом вирішальних дерев. Прикладна математика: сучасні проблеми математики, інформатики та моделювання. (2), 109-113.

[2] Ларіонова, А.В., Хорев, П.Б. (2016): Метод фільтрації спаму на основі штучної нейронної мережі. Вісник євразійської науки. (34), 124-130.

[3] Гафаров, Р.І. (2020): Застосування дворівневої моделі для фільтрації спам-повідомлень електронною поштою. Вісник науки та освіти. (89), 40-44.

[4] Катасєв, А.С. (2015): Спам-фільтрація електронних поштових повідомлень на основі нейромережевої та нейронечіткої моделей. Вісник Казанського технологічного університету. (15), 217-220.

[5] Скляренко, Н.С. (2017): Огляд алгоритмів машинного навчання, що вирішують завдання виявлення спаму. Нові інформаційні технології в автоматизованих системах. (20), 251-257.

[6] Вітров, Д.П. (2013): Машинне навчання - стан та перспективи. Електронні бібліотеки: перспективні методи та технології, електронні колекції. XVВсеросійська конференція RCDL2013. (1). 21 -28.

Размещено на Allbest.ru

...

Подобные документы

  • Вибір методів та засобів створення інформаційної системи для обліку і перегляду продукції на складі. Розробка моделі даних для реляційної бази даних, прикладного програмного забезпечення. Тестування програмного додатку, виявлення можливих проблем.

    курсовая работа [1,1 M], добавлен 22.09.2015

  • Логічний, структурний, еволюційний та імітаційний підходи до побудови системи штучного інтелекту. Використання формально-логічних структур, що обумовлено їх алгоритмічним характером. Методи реалізації системи штучного інтелекту, інтелектуальні програми.

    реферат [34,5 K], добавлен 14.04.2014

  • Поняття штучного інтелекту, його порівняння з природним. Коротка характеристика особливостей використання штучного інтелекту в медицині, військовій справі та комп'ютерних іграх. Проблема взаємодії носіїв універсального штучного інтелекту та суспільства.

    контрольная работа [29,6 K], добавлен 07.01.2014

  • Створення дистанційного навчального курсу за темою "Граматика англійської мови". Особливості використання каскадних таблиць стилю CSS. Функціональні можливості мови розмітки даних HTML. Інструкція для користувача, вимоги до програмного забезпечення.

    курсовая работа [2,2 M], добавлен 06.06.2013

  • Аналіз задач, які вирішуються з використанням інформаційної системи. Вибір серверного вирішення, клієнтської частини, мережного вирішення, системного програмного забезпечення. Розробка підсистеми діагностики, керування, забезпечення безпеки даних.

    курсовая работа [1,5 M], добавлен 22.04.2011

  • Огляд існуючого програмного забезпечення для управління дистанційним навчанням. Структура системи дистанційного навчання Moodle, її встановлення та налаштування. Розрахунок експлуатаційних витрат і показників економічного ефекту від розробки проекту.

    дипломная работа [2,1 M], добавлен 16.02.2013

  • Систематизація знань як основна функція бази даних. Логічне та фізичне проектування бази даних. Створення таблиць у базі даних, визначення основних зв'язків. Інструментальні засоби проектування та створення програмного забезпечення для обробки даних.

    курсовая работа [1,4 M], добавлен 29.04.2010

  • Історія машинного перекладу як науково-прикладного напряму. Теорія машинного перекладу. Особливості використання систем, орієнтованих на персональні комп’ютери. Напрямки розвитку та застосування машинного перекладу. Приклади систем машинного перекладу.

    реферат [21,5 K], добавлен 19.02.2011

  • Інфологічна модель програмного забезпечення. Формалізація технології проектування інформаційної системи. Єдина система класифікації і кодування. Проектування технологічних процесів обробки даних в діалоговому режимі. Класифікація діалогових систем.

    контрольная работа [126,9 K], добавлен 22.09.2009

  • Теоретичне дослідження особливостей проектування систем дистанційного навчання. Створення програмного забезпечення процедури статистичної обробки результатів тестування знань і оцінки якості тесту. Економічне обґрунтування доцільності розробки програми.

    дипломная работа [3,6 M], добавлен 22.10.2012

  • Розробка компонентів програмного забезпечення системи збору даних про хід технологічного процесу. Опис програмного забезпечення: сервера, що приймає дані про хід технологічного процесу, КОМ для його імітування, робочої станції для відображення даних.

    курсовая работа [1,3 M], добавлен 20.11.2010

  • Характеристика та основні напрями діяльності друкарні "Добробут". Особливості дистанційної системи навчання "Moodle", сутність програми "Learning Space 5.0". Основне призначення діаграми використання, її склад: блоки використання, зовнішні користувачі.

    дипломная работа [2,9 M], добавлен 12.04.2012

  • Комплексна обробка просторово-розподілених ресурсів мережі Інтернет. Системи інформаційного моніторингу в мережі. Обґрунтування технологій, розробка системи інтеграції Інтернет-контенту для конкурентного середовища ринку праці. Оцінювання систем аналізу.

    дипломная работа [763,8 K], добавлен 14.07.2013

  • Автоматизований та машинний види перекладу. Можливості подолання мовного бар’єру у спілкуванні. Існуючі класифікації систем машинного перекладу. Лінгвістичне дослідження міри автоматизованості перекладацької системи. Словник і синтаксис вхідної мови.

    статья [23,5 K], добавлен 14.08.2017

  • Напрямки використання інформаційно-комунікаційних технологій в процесі навчання студентів. Визначення шляхів залучення комунікаційних мереж і сервісів в систему вищої освіти. Побудова функціонально-інформаційної та техніко-технологічної моделі деканату.

    дипломная работа [6,4 M], добавлен 27.01.2022

  • Проектування і реалізація навчального програмного продукту "Побудова геометричних фігур". Використання C++ Builder 6 у якості програмного середовища для реалізації даної навчальної програми. Інструкція з використання розробленого програмного забезпечення.

    курсовая работа [2,2 M], добавлен 05.05.2014

  • Етапи розробки проекту. Вимоги до апаратного і програмного забезпечення, до користувача. Специфікація та структура даних, які мають бути розміщеними в системі. Вигляд інтерфейсу системи програмного забезпечення. Розробка бази даних косметичного салону.

    дипломная работа [1,8 M], добавлен 21.02.2015

  • Комбінація методів ринкового регулювання, заснованих на зворотних зв'язках. Аналіз методологій розробки програмного забезпечення. Порівняльний аналіз програмних технологій. Вибір технології доступу до даних. Компонент взаємодії адмінчастини з базою даних.

    дипломная работа [3,0 M], добавлен 02.02.2013

  • Інформаційна технологія як система методів і способів збору, передачі, нагромадження, збереження, подання й використання інформації на основі застосування технічних засобів, етапи їх розвитку. Розповсюдження та використання інформаційних технологій.

    презентация [3,5 M], добавлен 12.06.2014

  • Переваги використання відкритої архітектури програмного забезпечення ВВК. Концепція побудови лабораторного практикуму. Структура та взаємодія програмних та апаратних засобів. Структурна схема розподілу ресурсів мікроконтролера між приладами.

    реферат [1,9 M], добавлен 06.07.2009

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.