Дослідження методів та алгоритмів виявлення аномалій з використанням машинного навчання

Автор: Нечипорук Денис Михайлович
Кваліфікаційний рівень: магістр
Спеціальність: Інформаційні мережі зв'язку
Інститут: Інститут телекомунікацій, радіоелектроніки та електронної техніки
Форма навчання: денна
Навчальний рік: 2020-2021 н.р.
Мова захисту: українська
Анотація: 2020 рік приніс кардинальні зміни в життя людей. Умови карантину посприяли тому, що кількість користувачів Інтернет мережі збільшилась в рази. Цей момент є причиною того, що трафік, в якому передається інформація, став більш завантаженим, а відповідно разом з корисною збільшилась і кількість “сміттєвої” і шкідливої нформації. Це призводить до збільшення кількості аномалій під час різних дій користувачів. Інтернет — мережа клієнтоорієнтована, тому вона повинна працювати швидко і ефективно, файли мають швидко завантажуватися, а сервіси функціонуванти безперебійно. Аномалія - це некоректна поведінка або модель даних, яка дає зрозуміти, що фактичний результат відрізняється від отриманого результату. Виявлення аномалій має широкий спектр використання і застосовується до багатьох підходів, які намагаються виявити вразливі місця в наборі даних. У перших двох розділах доводилося ефективність використання машинного навчання для виявлення аномалій. Проведено порівняльний аналіз для контрольованого і не контрольованого виявлення аномалій. Розглянуто різні алгоритми контрольованих і не контрольованих методів виявлння аномалій та проведено оцінку ефективності декількох з них. Після порівняння увагу зосереджено на алгоритмі PCA, який модифікуватиметься. У третьому розділі удосконалено алгоритм PCA та запропоновано правила машинного навчання для PCA. Після описання власного алгоритму виявлення аномалій на основі лог файлів проведено оцінку ефективності алгоритму PCA, у порівнянні з існуючими алгоритмами. Дослідження шляхом імітаційного моделювання продемонструвало, що запропонований нами алгоритм не гірший від інших існуючих алгоритмів, а у деяких випадках виявлявся навіть кращим. Четвертий розділ присвячений доведенню ефективності запропонованого методу виявлення аномалій на основі даних лог журналів з використаннм хмарних платформ Azure та Kibana. В рамках дослідження проводилося налаштування веб-додатку для генерації лог файлів, платформи для тимчасового збереження та аналізу лог файлів, за допомогою введених правил машинного навчання. Результати показали одночасний момент виявлення аномалій як на платформі Azure так і на платформі Kibana. У п`ятому розділі проводився порівняльний економічний аналіз двох методів виявлення аномалій SVM та k-NN. Розраховувалися капітальні та експутаційні витрати на реалізацію цих методів. Основними результатами роботи являються висновки щодо слабких сторін алгоритму, та запропоновані методи його покращення, які допомогли б удосконалити ефективність виявлення аномалій алгоритму PCA. З проведених досліджень ми вияснили, що за допомогою нашого алгоритму всі аномалії були виявлені на Azure та Kibana в один час. Це підтверджує ефективність нашого методу у пошуку аномалій. Згідно отриманих результатів, можна стверджувати, що модифікований нами алгоритм не гірший від інших алгоритмів неконтрольованого виявлення аномалій. Об’єкт дослідження - процес виявлення аномалії в інфокомунікаційних мережах. Предмет дослідження - алгоритми та методи виявлення аномалій на основі машинного навчання. Методи дослідження. В процесі виконання роботи використовувались існуючі методи контрольованого і не контрольованого виявлення аномалій, основи теорії ймовірності та математичної статистики Мета роботи - дослідження методів та алгоритмів виявлення аномалій на основі машинного навчання. Ключові слова: аномалії, види аномалій, контрольовані методи виявлення аномалій, не контрольовані методи виявлення аномалій, машинне навчання, лог файли, k-NN, SVM, PCA. Список використаних джерел 1. Jun, W., Xu, H., Rong, R. and Tai-hang, L.2009. Real-time intrusion detection system based on PSO-SVM. Proceedings of the International Workshop on Information Security and Application IWISA) 2. Eskin E., Arnold A., Preraua M., Portnoy L. and Stolfo S. "Geometric framework for uncontrolled anomaly detection: detection of intrusions in unmarked data. 3. Paulo, M., Vinicius, M. and Johnny.2010. Intelligent intrusion detection system based on anomalies. Works on computers and communications (ISCC). 4. Oh, and Whose.2008. Real-time intrusion detection system based on self-organized maps and object correlations. Proceedings of the third international conference on convergence and hybrid information. 5. Min, Y. 2011. "Real-time anomaly detection systems for denial of service attacks by weighted classifiers of k-nearest neighbors". Expert systems with applications, vol. 38, 2011, p. 3492-3498.