Система виявлення та класифікації спаму в емейлах
Автор: Микитюк Андрій Вікторович
Кваліфікаційний рівень: магістр
Спеціальність: Аналіз даних (Data Science)
Інститут: Інститут комп'ютерних наук та інформаційних технологій
Форма навчання: денна
Навчальний рік: 2023-2024 н.р.
Мова захисту: українська
Анотація: Сучасний світ вповні пронизаний інформацією та зв’язками, в якому електронна пошта відіграє ключову роль у спілкуванні та обміні інформацією. Проте, разом зі зростанням кількості електронних повідомлень, збільшується і кількість небажаних повідомлень, які спричиняють серйозні труднощі для користувачів. Спам-повідомлення завдають збитків не лише часу, але і ресурсів, спожитих на їх обробку, та загрожують безпеці інформації[1]. Актуальність тематики дослідження та розробки системи розпізнавання та класифікації спаму в електронних листах обгрунтовується декількома важливими факторами: • Зростаюча кількість спаму: В останні десятиліття спостерігається експоненційний ріст кількості спам-повідомлень, які надходять в електронну пошту користувачів. Це створює серйозні труднощі для користувачів і об’єктивну потребу в ефективних засобах фільтрації та захисту • Зростаюча складність спаму: Сучасні спам-повідомлення стають все більш витонченими та важкими для розпізнавання. Зловмисники використовують різноманітні методи маскування, щоб обійти традиційні способи фільтрації. • Захист від фішингу та шахрайства: Спам-повідомлення часто містять шахрайські схеми та фішингові атаки, які можуть завдати фінансових збитків та загрожувати безпеці особистих даних користувачів. • Розвиток інформаційних технологій: Процеси машинного навчання та аналізу тексту стали більш доступними та потужними, що відкриває нові можливості для створення ефективних антиспамових систем[2]. У результаті цих факторів можна зробити висновок, що розробка ефективної системи розпізнавання та класифікації спаму є своєчасною та актуальною завданням. Наявність подібних досліджень і розробок підтверджує значущість цієї тематики та попит на вдосконалення в цій галузі для забезпечення безпеки та зручності користувачів електронної пошти. Нашим баченням є створення ефективної та надійної системи розпізнавання та класифікації спаму в електронних повідомленнях, яка сприятиме підвищенню якості користування електронною поштою для всіх користувачів. Ми прагнемо до покращення якості комунікації через електронну пошту, зменшення впливу небажаних повідомлень на користувачів та захисту їх інформації від спаму. Ми спрямовуєм наші сили на підвищення безпеки, зручності та продуктивності користувачів електронної пошти, а також на вдосконалення антиспамових систем в цифровому світі. Ми віримо, що наша робота допоможе покращити умови користування електронною поштою та забезпечить здоровий та безпечний електронний середовища для всіх користувачів. Об’єктом дослідження є процес фільтрації та розпізнавання спаму в електронних листах. Цей процес породжує проблемну ситуацію у сфері електронної пошти та інформаційної безпеки, оскільки вимагає розробки та впровадження ефективних засобів для виявлення та відсіювання небажаних повідомлень, з метою покращення комунікації та захисту від спаму для користувачів електронної пошти. Метою даної магістерської кваліфікаційної роботи є розроблення системи розпізнавання та класифікації спаму в електронних листах з метою підвищення ефективності захисту від небажаних повідомлень та зменшення впливу спаму на користувачів. Предметом дослідження є система розпізнавання та класифікації спаму в електронних листах. Це включає в себе розробку та вдосконалення алгоритмів, які дозволяють системі ефективно відрізняти спам від легітимних листів, а також інші технічні та аналітичні аспекти, пов’язані з розпізнаванням небажаних повідомлень. Задача роботи полягає в розробці системи розпізнавання та класифікації спаму в електронних листах з метою: • Дослідження та імплементації алгоритмів розпізнавання спаму: дослідити та реалізувати ефективні алгоритми, які дозволять автоматично визначати, чи є конкретне повідомлення спамом. • Створення інтерфейсу для користувачів: Розробити зручний та інтуїтивно зрозумілий інтерфейс, який надасть користувачам можливість налаштовувати рівень фільтрації спаму та виконувати інші дії щодо керування небажаними повідомленнями. • Експериментальне тестування та оцінка ефективності: Провести тестування розробленої системи на великому обсязі електронних листів для оцінки її ефективності та порівняння результатів з існуючими антиспамовими рішеннями. • Навчання системи: Розробити механізми, які дозволять користувачам покращувати роботу системи шляхом навчання на нових прикладах спаму та неважаних повідомлень. Перелік використаних літературних джерел 1. How To Design A Spam Filtering System with Machine Learning Algorithm – [Електронний ресурс] – режим доступу: https://towardsdatascience.com/email-spam-detection-1-2-b0e06a5c0472 2. Text Classification using Naive Bayes – [Електронний ресурс] – режим доступу: https://www.inf.ed.ac.uk/teaching/courses/inf2b/learnnotes/inf2b-learnnote07-2up.pdf 3. N. Bouguila, O. Amayri A discrete mixture-based kernel for SVMs: application to spam and image categorization Inf. Process. Manag., 45 (6) (2009), С. 631-642. URL: https://www.researchgate.net/publication/223798382_A_discrete_mixture-based_kernel_for_SVMs_Application_to_spam_and_image_categorization 4. Y. Cao, X. Liao, Y. Li An e-mail filtering approach using neural network International Symposium on Neural Networks, Springer Berlin Heidelberg (2004), С. 688-694. URL: https://link.springer.com/chapter/10.1007/978-3-540-28648-6_110 5. S. Mason New Law Designed to Limit Amount of Spam in E-Mail (2003). URL: https://www.researchgate.net/publication/305919884_Email_Spam_Classification_Using_Hybrid_Approach_of_RBF_Neural_Network_and_Particle_Swarm_Optimization