Розрозблення інформаційної системи для виявлення очних захворювань за допомогою методів машинного навчання

Автор: Продеус Роман Михайлович
Кваліфікаційний рівень: магістр (ОНП)
Спеціальність: Комп'ютерні науки (освітньо-наукова програма)
Інститут: Інститут комп'ютерних наук та інформаційних технологій
Форма навчання: денна
Навчальний рік: 2024-2025 н.р.
Мова захисту: українська
Анотація: Продеус Р.М., Андрійчук М.І. (керівник). Розроблення інформаційної системи для виявлення очних захворювань за допомогою методів машинного навчання. Магістерська кваліфікаційна робота. - Національний університет "Львівська політехніка", Львів, 2025. У роботі досліджено проблему автоматизованого виявлення очних захворювань на основі аналізу зображень очного дна за допомогою методів машинного навчання. Об’єктом дослідження є процес автоматичної діагностики очних захворювань шляхом аналізу цифрових зображень очного дна з використанням методів машинного навчання. Предмет дослідження - методи та алгоритми комп’ютерного зору та глибокого навчання для класифікації офтальмологічних патологій на основі аналізу зображень очного дна, а також архітектурні особливості згорткових нейронних мереж і моделей на основі механізму уваги (attention mechanism) при виявленні очних захворювань. Метою дослідження було порівняння точності, надійності та загальної ефективності чотирьох популярних моделей глибокого навчання: базової згорткової нейронної мережі (CNN) [1], попередньо навченої моделі VGG16 [2], модифікованої ResNet50 [3] та сучасної архітектури Vision Transformer (ViT) [4], а також розробка інформаційної системи для впровадження найефективніших моделей у клінічну практику. Як джерело медичних зображень використано відкритий набір даних Ocular Disease Intelligent Recognition (ODIR) [5], який містить зображення очного дна пацієнтів з різними офтальмологічними діагнозами. На першому етапі роботи проаналізовано архітектурні особливості кожної з обраних моделей, їх переваги та потенційні обмеження у контексті медичної візуалізації. Здійснено тонке налаштування моделей, адаптацію до специфіки даних та проведено серію експериментів, спрямованих на вимірювання точності класифікації. За результатами дослідження модель ViT продемонструвала найвищу точність (0.6478), істотно випередивши класичні CNN-архітектури, серед яких найкращий результат показала VGG16 (0.4836). Моделі CNN і ResNet50 мали точність на рівні 0.4062 та 0.4296 відповідно, що вказує на недостатню ефективність при використанні без додаткових технік обробки чи розширення даних. У процесі експериментів також виявлено схильність моделей до перенавчання, що частково пояснюється обмеженим обсягом навчального набору. Це підкреслює потребу в подальшій оптимізації: застосуванні аугментації зображень [6], регуляризації, використанні більших попередньо навчених моделей [7] або ансамблів нейромереж [8]. Результати дослідження демонструють перспективність використання трансформерної архітектури для задач медичної діагностики зображень, особливо в умовах, де важливо враховувати глобальний контекст візуальної інформації. Отримані висновки можуть стати основою для створення точніших та надійніших систем автоматичної діагностики в офтальмологічній практиці. Ключові слова: автоматична діагностика, очні захворювання, глибоке навчання, Vision Transformer, ResNet50, VGG16, CNN, медична візуалізація, аугментація даних. Перелік використаних літературних джерел: 1. “Convolutional neural network,” Wikipedia. Sep. 26, 2024. Accessed: Oct. 08, 2024. [Online]. Available: https://en.wikipedia.org/w/index.php?title=Convolutional_neural_network&oldid=1247891574 2. “VGG-16 | CNN model,” GeeksforGeeks. Accessed: Oct. 08, 2024. [Online]. Available: https://www.geeksforgeeks.org/vgg-16-cnn-model/ 3. N. Kundu, “Exploring ResNet50: An In-Depth Look at the Model Architecture and Code Implementation,” Medium. Accessed: Oct. 08, 2024. [Online]. Available: https://medium.com/@nitishkundu1993/exploring-resnet50-an-in-depth-look-at-the-model-architecture-and-code-implementation-d8d8fa67e46f 4. “Vision Transformer (ViT)” Hugging Face. Accessed: Oct. 08, 2024. [Online]. Available: https://huggingface.co/docs/transformers/model_doc/vit 5. “Ocular Disease Recognition.” Accessed: Oct. 08, 2024. [Online]. Available: https://www.kaggle.com/datasets/andrewmvd/ocular-disease-recognition-odir5k 6. “Data augmentation,” Wikipedia. Aug. 28, 2024. Accessed: Oct. 08, 2024. [Online]. Available: https://en.wikipedia.org/w/index.php?title=Data_augmentation&oldid=1242820045 7. “What Is a Pretrained AI Model?” Nvidia Aug. 28, 2024. Accessed: Oct. 08, 2024. [Online]. Available: https://blogs.nvidia.com/blog/what-is-a-pretrained-ai-model/ 8. “Ensemble learning” Wikipedia. Sep. 26, 2024. Accessed: Oct. 08, 2024. [Online]. Available: https://en.wikipedia.org/wiki/Ensemble_learning