Інформаційна система опису відеоконтенту для осіб з вадами зору

Автор: Райта Владислав Андрійович
Кваліфікаційний рівень: магістр (ОНП)
Спеціальність: Інформаційні системи та технології (освітньо-наукова програма)
Інститут: Інститут комп'ютерних наук та інформаційних технологій
Форма навчання: денна
Навчальний рік: 2024-2025 н.р.
Мова захисту: українська
Анотація: Сучасне суспільство все більше орієнтується на візуальну інформацію. Відеоконтент відіграє важливу роль у різних сферах, таких як освіта, розваги, інформаційні технології та професійна діяльність. Однак для осіб з порушеннями зору доступ до цієї інформації є обмеженим. За даними Всесвітньої організації охорони здоров’я (ВООЗ), у світі понад 285 мільйонів людей мають порушення зору, з яких близько 39 мільйонів є повністю незрячими. Ці люди стикаються з проблемами сприйняття відеоматеріалів, що обмежує їх участь у культурному та інформаційному житті. Традиційні методи, як-от тифлокоментування (аудіоопис), є корисними, але часто їхнє застосування обмежене через високу вартість створення описів та їх відсутність у більшості відео. Сучасні технології вже пропонують різноманітні рішення для адаптації відеоконтенту: • Ручне тифлокоментування – ефективний метод, але він потребує значних ресурсів і часу. • Автоматичні генератори текстових описів – мають обмежену точність і не завжди враховують контекст сцени. • Комп’ютерний зір та штучний інтелект – дозволяють автоматизувати створення аудіоописів, але ще потребують вдосконалення. Сьогодні є потреба у створенні системи, яка об’єднує сучасні технології штучного інтелекту, комп’ютерного зору та обробки природної мови для автоматизації процесу створення описів відеоконтенту. Завдяки розвитку глибинного навчання та нейромережевих моделей для обробки зображень і тексту з’являється можливість автоматизувати ці процеси. Ось кілька ключових технологій: • Згорткові нейронні мережі (CNN) для аналізу відео та виділення ключових об’єктів. • Рекурентні нейронні мережі (RNN, LSTM, Transformer) для створення текстових описів. • Text-to-Speech (TTS) для синтезу звукових описів. • Онтологічні підходи для структурування та логічного зв’язку описів. Розробка такої інформаційної системи сприятиме інклюзивності та полегшить доступ до відеоконтенту для осіб з порушеннями зору. Запропонована система може бути інтегрована у: • Онлайн-стрімінгові платформи (YouTube, Netflix, Disney+). • Освітні ресурси (MOOC, університетські відеолекції). • Музеї та культурні установи (аудіогіди з автоматичним описом відео). • Мобільні додатки для людей з порушеннями зору. Отже, створення інформаційної системи для автоматизованого опису відеоконтенту не тільки вирішить соціально важливу проблему, але й сприятиме розвитку технологій штучного інтелекту в інклюзивних рішеннях. Актуальність цієї дипломної роботи визначена глобальною потребою забезпечення доступності відеоконтенту для людей з вадами зору. Поєднання методів комп’ютерного зору, обробки природної мови та глибинного навчання дозволить розробити інноваційну систему, яка сприятиме цифровій інклюзії та покращенню якості життя мільйонів людей. Об’єкт дослідження – процес тифлокоментування відеоконтенту для осіб з вадами зору. Предмет дослідження – розробка засобів тифлокоментування для відеоконтенту. Метою дослідження є створення та впровадження інформаційної системи, яка автоматично генерує текстові та голосові описи відеоконтенту для осіб з порушеннями зору, використовуючи технології штучного інтелекту, комп’ютерного зору та обробки природної мови. Ця система повинна забезпечувати автоматичне розпізнавання вмісту відео, створення змістовних описів та генерування аудіокоментарів у реальному часі або для записаних відео. Основні завдання, які виникають з мети дослідження: • Аналіз існуючих рішень у сфері тифлокоментування та автоматичного опису відеоконтенту. • Визначення вимог до інформаційної системи та вибір відповідних технологій (комп’ютерний зір, обробка природної мови, синтез мовлення). • Розробка методів автоматичного розпізнавання ключових об’єктів і подій у відео за допомогою згорткових нейронних мереж (CNN) та моделей трансформерів (Vision Transformer). • Створення алгоритмів генерації текстових описів за допомогою рекурентних нейронних мереж (RNN, LSTM) або сучасних мовних моделей (GPT, BERT). • Розробка модуля синтезу мовлення (TTS) для автоматичного озвучення згенерованих описів. • Реалізація прототипу системи з можливістю інтеграції у відеоплатформи або мобільні додатки. • Тестування та оцінка ефективності системи, включаючи точність описів і зручність використання для людей з порушеннями зору. Результати дослідження допоможуть підвищити доступність відеоконтенту для людей з порушеннями зору, що сприятиме цифровій інклюзії та розширить можливості адаптації технологій для всіх категорій населення.