Інтелектуальна інформаційна система прогнозування розвитку серцево-судинних захворювань

Автор: Коник Мирослав Ігорович
Кваліфікаційний рівень: магістр (ОНП)
Спеціальність: Системний аналіз (освітньо-наукова програма)
Інститут: Інститут комп'ютерних наук та інформаційних технологій
Форма навчання: денна
Навчальний рік: 2023-2024 н.р.
Мова захисту: українська
Анотація: Актуальність. Попри стрімкий розвиток технологій у кожній сфері нашого життя, зокрема медичній, проблема серцево-судинних захворювань щороку посідає перше місце за показником смертності. З кожним роком, проблема лише загострюється, так за результатами дослідження за останні 30 років, показник смертності виріс вдвічі та становить 18,6 мільйона на світовому рівні [1]. В Україні ж серцево-судинні захворювання становлять 67 % усіх смертей, а це близько 450 тисяч осіб щороку. Для зменшення ризику захворювання, слід мінімізувати фактори ризику, такі як: високий рівень холестеролу, високий показник артеріального тиску, куріння, алкоголізм, високий рівень індекс маси тіла, порушення функцій роботи нирок та високий рівень глюкози. Питання, прогнозування серцево-судинних захворюваннь, складно недооцінити, у зв’язку з повномаштабною війною росії проти України. Стрес, у якому щодня перебуває населення, напряму впливає на кожен з цих факторів та максимально підсилює їх негативний наслідок. Об’єкт дослідження являє собою процес прогнозування розвитку серцево-судинних захворювань. Предметом дослідження виступають алгоритми штучного навчання та методи машинного навчання, які використовуються для аналізу медичних даних в цілях прогнозування серцево-судинних захворювань. Мета і задача дослідження – розробка інтелектуальної інформаційної системи, яка на основі аналізу даних про стан здоров’я пацієнтів зможе прогнозувати ризик розвитку серцево-судинних захворювань. Для виконання сформованої задачі дослідження необхідно виконати такі етапи: • Проаналізувати актуальний стан проблеми серцево-судинних захворювань, визначити ключові тренди та перспективні напрямки досліджень, як у медичній галузі так і у сфері штучного інтелекту, визначити та проаналізувати існуючі рішення, встановити основні критерії для розробки інтелектуальної системи. • Застосувавши методології системного аналізу, сформулювати загальні цілі проєкту, побудувати дерево цілей, розробити концептуальну модель системи. • Оцінити доступні технологічні рішення, що можуть бути використані для реалізації проекту, та визначити найефективніші засоби для досягнення поставлених цілей. • Розробити моделі машинного навчання для аналізу медичних даних. • Здійснити валідацію і перевірку створеної системи. Наукова новизна полягає в розробці інтелектуальної інформаційної системи, що інтегрує сучасні технології штучного інтелекту та машинного навчання для прогнозування розвитку серцево-судинних захворювань. Відмінність цієї системи від існуючих полягає в застосуванні комплексного підходу до аналізу медичних даних, включаючи не лише клінічні показники, але й соціально-демографічні фактори, та спосіб життя пацієнтів. Такий підхід дозволяє не тільки точніше визначати ризики, але й розробляти персоналізовані стратегії профілактики та лікування для кожного пацієнта. Практичне значення отриманих результатів полягає у створенні системи у вигляді веб-застосунку, що дозволяє користувачам вводити медичні показники через веб-інтерфейс. Після введення даних, система обробляє їх за допомогою попередньо навченої моделі машинного навчання, яка аналізує інформацію та видає оцінку ризику розвитку розвитку серцево-судинних захворювань. Опис реалізації завдання Для реалізації проєкту було використано набір даних "Heart Failure Prediction Dataset" [2], який містить 1190 спостережень з 11 характеристиками. Цей набір даних є найбільшим наявним на момент дослідження. Першим кроком було імпортування необхідних бібліотек для аналізу, візуалізації, підготовки даних та навчання моделей. Далі відбулося завантаження та підготовка даних, включаючи перетворення категоріальних змінних у числові за допомогою OneHotEncoder та об’єднання їх з числовими змінними для створення набору ознак для навчання. Набір даних було розділено на тренувальну та тестову вибірки для оцінки моделі на даних, які не були використані під час навчання. Було застосовано кілька методів машинного навчання, зокрема логістична регресія, дерева рішень, випадковий ліс, метод опорних векторів та багатошаровий перцептрон. Кожен метод оцінювався за його точністю та ефективністю у прогнозуванні розвитку серцево-судинних захворювань. Значна увага приділялася оптимізації моделей, вибору гіперпараметрів та використанню бібліотек Python, таких як Scikit-learn. У результаті метод випадкового лісу показав найкращий показник точності – 89%. Було створено інтуїтивно зрозумілий веб-інтерфейс для введення медичних показників та перегляду результатів прогнозування. Користувачі можуть вводити дані через веб-інтерфейс, після чого система обробляє їх за допомогою попередньо навченої моделі та видає оцінку ризику розвитку ССЗ. Ключові слова – серцево-судинні захворювання, машинне навчання, прогнозування, випадковий ліс, нейронні мережі. Перелік використаних літературних джерел: 1. Murray, C.J.L. The Global Burden of Disease Study at 30 years. Nat Med 28, 2019–2026 (2022). https://doi.org/10.1038/s41591-022-01990-1. 2. fedesoriano. (September 2021). Heart Failure Prediction Dataset. Retrieved 15.04.2024 from https://www.kaggle.com/fedesoriano/heart-failure-prediction.