Інтеграція методів обробки природної мови та комп’ютерного зору для автоматичного генерування описів зображень

Автор: Федак Андрій Ярославович
Кваліфікаційний рівень: магістр
Спеціальність: Системне проектування
Інститут: Інститут комп'ютерних наук та інформаційних технологій
Форма навчання: денна
Навчальний рік: 2024-2025 н.р.
Мова захисту: англійська
Анотація: Федак А.Я, Юрчак І.Ю. (керівник). Інтеграція методів оброки природної мови та комп’ютерного зору для автоматичного генерування описів зображень – Національний університет «Львівська політехніка», Львів, 2024. Розширена анотація. Магістерська кваліфікаційна робота присвячена інтеграції методів обробки природної мови та комп’ютерного зору для автоматичного генерування описів зображень. У магістерській роботі проведено всебічний аналіз існуючих підходів до автоматичного генерування описів зображень. Розглянуто різні архітектури нейронних мереж, такі як VGG, ResNet, InceptionV3 та їхній вплив на якість згенерованих описів. Надано детальний аналіз особливостей архітектур, їхню здатність до виділення суттєвих характеристик зображень та можливості адаптації до специфічних завдань. Виконано експериментальні дослідження з оцінки отриманих результатів за допомогою метрик BLEU та METEOR, що дозволило об’єктивно порівняти якість генерації описів. В рамках дослідження особливу увагу приділено методам обробки природної мови, які забезпечують семантичну точність та стилістичну різноманітність тексту. Проаналізовано різні підходи до генерації тексту, включаючи використання рекурентних нейронних мереж і трансформерних архітектур, які показали високу ефективність у задачах генерації описів. Досліджено, як контекстуальні моделі, такі як BERT та GPT, можуть бути використані для покращення якості згенерованого тексту шляхом врахування попереднього контексту. Дослідження містить порівняння отриманих результатів з існуючими системами, такими як CaptionBot і Show and Tell. Це дозволяє оцінити конкурентоспроможність розробленої системи та виявити її переваги у точності та адекватності описів. Висвітлено ключові відмінності між цими системами та розробленою моделлю, а також переваги, які надає запропонована інтегрована архітектура. У рамках аналізу конкурентів виявлено, що на ринку існують значні прогалини у точності і контекстуальному розумінні описів, що створює попит на нові рішення. Розроблена система продемонструвала потенціал у заповненні цих прогалин, пропонуючи більш адаптивний і контекстуально збагачений підхід до генерації описів зображень. Цей аспект може мати важливе значення для застосувань у медіа, соціальних мережах, електронній комерції та освіті, де точність і контекстуальність описів є критично важливими. Дослідження також охоплює питання вибору найбільш ефективних моделей для генерації описів, які можуть адекватно відображати візуальну інформацію. Вивчено вплив різних параметрів, таких як розмір навчального набору, якість анотацій та особливості візуальних даних, на результати генерації текстів. Аналіз помилок виявив типові проблеми, такі як недостатнє розуміння контексту або неповне відображення візуальної інформації, що спонукало до подальшого вдосконалення алгоритмів. На основі системного аналізу сформульовано рекомендації щодо подальших напрямків досліджень. Зокрема, запропоновано вивчити вплив різних типів даних на якість генерації, адаптацію моделей до специфічних доменів, а також розробку інтерактивних систем, які дозволяють користувачам впливати на процес генерації описів. Це може включати адаптацію системи до певних стилів письма, тематик або специфічних запитів від користувачів. У цілому, робота представляє собою комплексне дослідження інтеграції технологій комп’ютерного зору та обробки природної мови, що може слугувати основою для подальшого розвитку систем автоматичного генерування описів зображень. Результати роботи можуть бути застосовані в різних сферах, таких як медіа, електронна комерція, охорона здоров’я та освіта, відкриваючи нові горизонти для їх використання в реальному світі. Це дослідження сприяє поглибленню розуміння взаємодії між зображеннями та текстами, що є важливим елементом у розвитку інтелектуальних систем, а також має потенціал для впровадження у практичні застосування, покращуючи автоматизацію процесів у різних галузях. Об’єкт дослідження – технології автоматизації генерування текстових описів зображень за допомогою поєднання комп’ютерного зору та методів обробки природної мови. Предмет дослідження – алгоритми та моделі, що реалізують синтез зображень і тексту для створення адекватних і семантично значущих описів. Мета дослідження – розробка ефективної інтегрованої системи, здатної автоматично генерувати описи для зображень, що базується на методах глибокого навчання та сучасних підходах до обробки даних. Наукова новизна роботи полягає в удосконаленні архітектури Show and Tell для генерації описів зображень шляхом інтеграції механізму уваги, що дозволяє покращити точність і детальність описів, зокрема в контекстах складних зображень. Також модель була розроблена з ідеєю легкого майбутнього розширення можливості перекладу описів на різні мови, зокрема для перекладу з англійської на українську, що забезпечить багатомовну підтримку та розширить застосування технології для глобальних користувачів. Загальний обсяг роботи: 100 сторінок з них 44 рисунки, 10 сторінок додатків, 2 таблиці, 6 рамок Ключові слова – обробка природної мови, комп’ютерний зір, автоматичне генерування, нейронні мережі, VGG, ResNet, InceptionV3, BLEU, METEOR. Перелік використаних літературних джерел. Peter Anderson, Xiaodong He, Chris Buehler, Damien Teney, Mark Johnson, Stephen Gould, Lei Zhang (2017). Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering. [Електронне джерело] – Режим доступу до ресурсу: https://arxiv.org/abs/1707.07998. (Дата звернення: 14.10.2024) Marcella Cornia, Matteo Stefanini, Lorenzo Baraldi, Rita Cucchiara. (2019). Meshed-Memory Transformer for Image Captioning. [Електронне джерело] – Режим доступу до ресурсу: https://arxiv.org/abs/1912.08226. (Дата звернення: 27.10.2024)