Система підтримки прийняття рішень для розпізнавання слів у людей з вадами мовлення
Автор: Дубик Вікторія Вікторівна
Кваліфікаційний рівень: магістр
Спеціальність: Системи і методи прийняття рішень
Інститут: Інститут комп'ютерних наук та інформаційних технологій
Форма навчання: заочна
Навчальний рік: 2021-2022 н.р.
Мова захисту: українська
Анотація: Метою магістерської роботи є розробка “Системи пітримки прийняття рішень для розпізнавання слів людей з вадами мовлення”. Останні декілька років стали величезним проривом у розвитку розпізнавання мовлення. Можна вже зробити висновки, що голосові помічники значно спростили наші буденні справи, але для деяких людей, ці технології стали рятівниками життя. Оскільки голосові помічники використовують мовлення як рушійну силу, ці технології особливо корисні для тих, хто має порушення рухливості або зору. Однак ці системи не справляються з однією проблемою — найвідоміші та найдосконаліші голосові помічники не можуть розпізнати слова у людей з порушеннями мовлення. Розлади мовлення та дизартрія у більшості випадках супроводжують досить поширені захворювання, такі як церебральний параліч, синдром Дауна, або ж хвороба Паркінсона. Це означає, що мільйони людей які найбільше потребують підтримки саме голосових помічників, стикаються з проблемою неприйняття і нерозуміння як у суспільстві, так і з сторони голосових помічників. Тому актуальність дослідження полягає у тому, що люди з атиповим мовленням потребують голосового помічника, який зможе інтерпретувати їх мовлення. Предметом дослідження — є проведення глибинного аналізу цієї проблеми та розробки альтернативного методу розпізнавання нетипового мовлення. У першому розділі цієї магістерської роботи досліджуються основні проблеми та потреби людей з порушеннями мовлення, основні досягнення в терапії розвитку мови — Broad Target Speech Recast [1], а також поверхневий огляд найпопулярніших систем розпізнавання мовлення. У другому розділі було вичерпно описано загальне призначення системи, основні функції, послідовність виконання операцій, те як користувачі можуть взаємодіяти з системою та як вона реагує на запити. Загальне призначення системи, всі цілі та підцілі системи були представлені за допомогою дерева цілей. Функціональність системи була представлена за допомогою UML діаграм, а саме таких, як діаграма варіантів використання, діаграма класів, діаграма послідовності та діаграма діяльності. У цьому розділі також було прописано вимоги за допомогою методу “історії користувачів” для кращого розуміння базових потреб основних користувачів. У третьому розділі магістерської роботи досліджуються існуючі бібліотеки з відкритим кодом для розпізнавання мовлення та обгрунтовується найбільш доцільний метод для розпізнавання саме нетипового мовлення. Вибраний метод базується на алгоритмі аудіовідбитків та швидкому перетворенні Фур’є [2]. Усі вхідні аудіо дані перетворюються у “аудіовідбитки”. І “база даних”, і “зразок” аудіофайлів піддаються одному аналізу. Аудіовідбитки з невідомого зразка порівнюються з великим набором аудіовідбитків, отриманих з бази даних вже записаних слів. Збіги згодом оцінюються на правильність відповідності. Алгоритм є шумостійким, обчислювально ефективним і масштабованим, здатним швидко ідентифікувати сегмент мови, записаної через мікрофон смартфона за наявності шуму. Алгоритм використовує комбінаторно-хешований аналіз частотно-часових аудіовідбитків, що дає незвичайні властивості, такі як прозорість, у якій можна ідентифікувати кілька слів схожих між собою. У четвертому розділі було представлено реалізацію розробленої системи та обґрунтовано доцільність використання архітектури MVP, мови програмування Kotlin для додатків Android, та взаємодії з бібліотекою відбитків. Дипломна робота також включає п’ятий розділ, метою якого є доведення економічної доцільності розробленого продукту. У результаті дослідження, написанння та розробки кваліфікаційної дипломної роботи, була розроблена система, що здатна записувати, зберігати та розпізнавати нетипове мовлення, тим самим надаючи можливість людям з вадами мовлення бути зрозумілими та прийнятими в суспільстві. Ключові слова: технологія розпізнавання мовлення, атипове мовлення, порушення мовлення, аудовідбиток, швидке перетворення Фур’є. 1. Jaap Haitsma, Antonius Kalker. A Highly Robust Audio Fingerprinting System. International Symposium on Music Information Retrieval (ISMIR). 2002. pp. 107-115. 2. A More Effective Speech Therapy Approach for Children with Down Syndrome. Neuroscience News. 2016. Vol. 6. URL: https://neurosciencenews.com/speech-therapy-down-syndrome-3597/