Дослідження методів виявлення вразливостей інформаційних систем з використанням машинного навчання.
Автор: Федорченко Валентин Олегович
Кваліфікаційний рівень: магістр
Спеціальність: Інформаційні мережі зв'язку
Інститут: Інститут телекомунікацій, радіоелектроніки та електронної техніки
Форма навчання: денна
Навчальний рік: 2021-2022 н.р.
Мова захисту: українська
Анотація: У роботі розглянуто проблему в області інформаційних мереж та безпеки. Об’єктом дослідження даної роботи є система збору та обробки великих масивів даних на основі системи машинного навчання, що дає можливість своєчасно реагувати на вразливості та аномалії в роботі серверів та активності користувачів. Для коректного функціонування серверних мереж, розташовані вони на локальних датацентрах, чи використовують постачальників хмарних рішень, потрібно використовувати моніторингові ситеми збору данних про роботу усіх складових мережі, починаючи від мережевих даних, закінчуючи інформацією про окремі додатки, що встановлено на серверах. У подальшому логи зібрані з усіх складових системи передаються до системи що здатна ефективно, паралельно та гнучко обробляти дані з часовою міткою. Такі системи (SIEM) не тільки корисні для збору данних, що в подальшому аналізуватимуться машинним навчанням, але й мають користь для всього штату підприємства. На зібраних данних можна будувати аналітику, що використовуватимуть спеціалісти з безпеки, іншим інженерам може бути створена досить зручна ситема моніторингу оновлень чи резервних копій програмних продуктів, менеджменту ці данні будуть інтересними з точки зору управляння. Одним з найважливіших аспектів даної роботи є використання машинного навчання для виявлення аномалій та вразливостей у досліджуваних мережах. Прераховані алгоритми навчання моделей машинного навчання широко використовуються у дослідженнях по всьому світу, кожен з них використовується для відповідних задач. Кожен алгоритм показує кращі результати працездатності з різними вибірками та типами даних. Більшість з існуючих алгоритмів для машинного навчання було досліджено та підкреслено його спосіб використання. Частина з них використовується для задач класифікації мідмінності даних, інші ж викормстовуються для вирішення задач прогнозування чи створення передбачення відхилень. Найпростішим прикладом та одним з найстаріших є алгоритм під назвою наївний байєсівськи класифікатор, що використовується для визначення різниці між даними. Для цілей прогнозування ж часто викорисовується алгоритм функція втрат через відносно не складну реалізацію та досить велику розповсюдженість. У кваліфікаційній роботі пропонується використовувати сучасні методи для обробки великих масивів даних, що в подальшому застосовуватимуться у аналізі моделлю машинного навчання. Та пропонується сучасний та швидкий спосіб навчання та збереження робочої моделі. Використовуючи одні з найпопулярніших рішень для збору даних у корпоративних мережах - Splunk Enterprise та додаток Splunk MLTK. Використовуючи ці програмні продукти достатньо полегшується обробка даних та знижується поріг входження інженерів до обробки даних машинним навчанням, адже використовується зручний користувацький інтерфейс та швидко відлагоджуються можливі недоліки у системі. У додатку доступно близько 30 заздалегіть написаних алгоритмів, що можна використовувати для обробки даних та підтримується можливість виконувати власно розроблені сценарії на програмній мові python. Об’єктом дослідження є процес підготовки та створення пограмного оточення, автоматизованого його розгортання, збір даних з доступних джерел їх аналіз та створення системи машинного навчання на основі реального середовища та його дослідження, як методу оптимізації використання машинного навчання. Предметом дослідження є відомі алгоритми машинного навчання за якими створюються моделі, а також використання для їх реалізації сучасного програмного забезпечення. Метою дослідження є розробка поделі машинного навчання найоптимальнішим способом з точки зору системного адміністратора. Ефективне використання сучасного програмного забезечення для виявлення вразливостей у інформаціних системах. Ключові слова: машинне навчання, модель машинного навчання, алгоритм навчання, лог, дані з часовою міткою, SIEM, Splunk, MLTK, Linux, авторизація.