Система синхронізації аудіокниги та текстової версії для сервісу аудіокниг
Автор: Хрупа Роман Зеновійович
Кваліфікаційний рівень: магістр
Спеціальність: Системи штучного інтелекту
Інститут: Інститут комп'ютерних наук та інформаційних технологій
Форма навчання: денна
Навчальний рік: 2020-2021 н.р.
Мова захисту: англійська
Анотація: Магістерська кваліфікаційна робота 50 сторінок, 29 рисунків, 31 використане джерело. Магістерська кваліфікаційна робота виконана студентом групи КНСШ-21 Хрупою Романом Зеновійовичем. Тема «Система синхронізації аудіокниги та текстової версії для сервісу аудіокниг». Робота направлена на здобуття ступеня магістр за спеціальністю 122 «Комп’ютерні науки». Метою магістерської кваліфікаційної роботи є розроблення методів та засобів синхронізації тексту з аудіо для сервісу аудіокниг Bbook, де користувач може читати текстову версію книги або слухати її аудіоверсію. Bbook — онлайн-бібліотека аудіокниг, яка дозволяє користувачам через мобільний застосунок отримати доступ до них. Даний сервіс містить книги українською та англійською мовою. Він надає надає зручний пошук, потокове програвання, персоналізовані підбірки для користувачів. Даний сервіс дозволить видавництвам легко поширювати свої аудіо-книги. Але однією з особливостей даного сервісу, яка зацікавить ще більше читачів до нього є можливість не лише слухати книгу, а й її паралельно читати, або ж слухати її там — де не можливо читати, а читати там — де не буде зручно слухати. На українському ринку немає немає сервісу, який би надає доступ до книг від багатьох видавницт. Зазвичай вони, якщо мають сайт та електронні версії книг, то поширюють їх через свій сайт. У видавництв, які мають мобільний застосунок — розробка та підтримка коштує багато, а функціонал є бідний. Мобільних застосунків, від наших видавницт, які б видавали книги, що містять синхронізовану аудіо та текстову версію українською або англійською мовою немає. Сервіси з подібним функціоналом набирають популярності в Європі та Америці. Також подібні застосунки є доступні російською мовою. Читачі, які шукатимуть для себе онлайн-сервіс для читання нададуть перевагу тому, який міститеме: ? найбільше книг на їхній мові, ? матиме систему рекомендацій, яка надасть йому книги, які будуть йому найбільш цікаві, ? матиме зручні кросплатформенні застосунки, за допомогою яких зможе слухати чи читати книг, ? усі книги матитимусть аудіо та текстову версію та їх синхронізацію, ? є можливість читати книги в різних перекладах та оригіналі. Об’єктом дослідження в магістерській кваліфікаційній роботі є процес синхронізації текстової книги з її аудіоверсією. Предметом дослідження є методи створення текстової транскрипції з аудіо та визначення місця в тексті, де трапляються конкретні слова, для української мови. Під час пошуку та аналізу методів, було розроблено AeGoMix, який є комбінацією розглянутих методів. Він дозволяє визначити коли був сказаний текстовий відрізок в аудіо, після чого знаходить кожне слово в цьому відрізку. Це дозволяє знаходити подібні по звучанню текстові відрізки, навіть, якщо в них містяться відмінності. Даний метод чудово справляється з українськими аудіокнигами, тому він і був вибраний для розробки вимушеного вирівнювання для онлайн-бібліотеки Bbook. Вимушене вирівнювання (Forced alignment) — процес створення текстової транскрипції з аудіо та визначення місця в тексті, де трапляються конкретні слова, вислови, речення. В результаті виконання дипломної роботи було розроблено програмний продукт, який дозволяє загрузити аудіокнигу та текст до неї, після чого отримати файл, де є текст з книги та час, коли він звучить на аудіо. Це дозволяє перемикатися між аудіо та текстовою версію книги з того самого місця, на якому користувач зупинився перед тим. Об’єктом дослідження є методи, які можуть реалізувати вимушене вирівнювання. В даній роботі розглянуто 3 способи вирішення даної задачі: ? За допомогою Speech-to-Text (Спочатку, виконуємо розпізнавання мовлення з аудіо в текст, після чого, за допомогою нечіткого пошуку рядків, знаходимо потрібні нам рядки) ? За допомогою Text-to-Speech (Генеруємо з тексту аудіо, після чого за допомогою динамічного викривлення часу, знаходимо коли даний текст був сказаний) ? За допомогою комбінації двох попередніх методів (Генеруємо аудіо, знаходимо коли був сказаний певний відрізок тексту, після чого в ньому шукаємо конкретні слова) У процесі розробки було використано бібліотеку книг сервісу Bbook, де є книги українською та англійською мовою. Для цього сервісу було розроблено інтерфейс додавання текстової версії книги, запуск вимушеного вирівнювання та редактор, який дозволяє виправляти помилки, допущені системою. Ключові слова: вимушене вирівнювання, синтез мови, книги, аудіокниги, динамічного викривлення часу, хмарне розпізнавання мови, нечіткий пошук рядків, мобільний застосунок