Інтелектуальна система аналізу і контролю мови в залежності від критеріїв заданих користувачем
Автор: Кобилюх Леслав Богданович
Кваліфікаційний рівень: магістр (ОНП)
Спеціальність: Системний аналіз (освітньо-наукова програма)
Інститут: Інститут комп'ютерних наук та інформаційних технологій
Форма навчання: денна
Навчальний рік: 2022-2023 н.р.
Мова захисту: українська
Анотація: Метою цієї магістерської роботи є розробка комплексного додатку для аналізу мовлення, який обробляє та аналізує мовлення, виявляє небажані слова та надає різні методи візуалізації, щоб користувачі могли краще розуміти свої мовні моделі. Програма має на меті допомогти користувачам удосконалити свої комунікативні навички, визначаючи тенденції, шаблони та потенційні області для вдосконалення їхнього мовлення[1]. Об’єкт дослідження: Процеси та явища пов’язані з аналізом мовлення людини, що включають розпізнавання мовлення, обробку аудіоданих, візуалізацію та аналіз результатів. Предмет дослідження: Розробка програмного засобу для аналізу мовлення користувачів, який допомагає виявляти закономірності, тенденції та потенційні області для покращення у спілкуванні. Мета дослідження: Створення ефективного та корисного інструменту для аналізу мовлення людини, який дозволить користувачам поліпшувати свої навички спілкування за допомогою аналізу різних аспектів мовлення. Задачі дослідження: 1. Дослідити існуючі методики та технології для аналізу мовлення, розпізнавання мовлення та візуалізації даних. 2. Розробити алгоритми та методи для обробки аудіоданих, перетворення мовлення на текст та аналізу мовленнєвих патернів. 3. Реалізувати програмний засіб на основі вибраних методів та технологій, забезпечивши його інтуїтивний та зручний інтерфейс. 4. Провести тестування та оцінку створеного інструменту для аналізу мовлення з метою виявлення можливих поліпшень та розширень функціональності. Методологія, використана в цьому дослідженні, передбачає використання кількох бібліотек Python для обробки різних аспектів програми, таких як PyAudio для запису та обробки звуку, Vosk для розпізнавання мови, Pandas для керування даними та Plotly для візуалізації даних. Програма призначена для запису та обробки аудіо, розпізнавання мовлення, керування небажаними словами в Excel, відтворення аудіофайлів і створення діаграм, які надають уявлення про моделі мовлення користувача[1][5]. Серед основних аспектів можна виділити: • Виявлення ефективних методів розпізнавання та аналізу мовлення, які можуть бути застосовані в програмному засобі. • Розробка алгоритмів для обробки аудіоданих та аналізу тексту, що включає виявлення ключових слів, частоти вживання та тривалості мовленнєвих сегментів[4]. • Створення візуалізацій, які дозволяють користувачам краще розуміти свої мовленнєві патерни та слідкувати за динамікою показників протягом часу. • Реалізація зручного та інтуїтивно зрозумілого інтерфейсу, що сприяє широкому використанню програмного засобу серед користувачів. Розроблений додаток містить кілька ключових функцій, таких як запис мовлення, обробка мовлення, керування небажаними словами в Excel, відтворення аудіофайлів і створення діаграм. Крім того, були досліджені альтернативні методи реалізації деяких із цих функцій разом із потенційними майбутніми оновленнями та додатковими методами візуалізації та аналізу, які можна реалізувати, щоб надати користувачам більше розуміння своїх даних. Результат досліджень: У результаті дослідження було розроблено програмний засіб для аналізу мовлення, який дозволяє користувачам записувати, аналізувати та візуалізувати своє мовлення[3]. Цей інструмент допомагає користувачам виявляти тенденції, закономірності та області для покращення у своєму спілкуванні, що сприяє розвитку мовленнєвих навичок та поліпшенню комунікації. Завдяки впровадженню додаткових функцій і вдосконалень, таких як хмари слів, декомпозиція часових рядів, аналіз настроїв, моделювання тем, аналіз n-грамів, розподіл довжини слів, позначення частин мови та лексичне розмаїття, програма може стати ще більшою потужний інструмент для користувачів, які хочуть працювати над покращенням своїх навичок спілкування. Підсумовуючи, у цій магістерській роботі представлено комплексний додаток для аналізу мовлення, який використовує сучасні методи розпізнавання мовлення, аналізу даних і візуалізації, щоб надати користувачам цінну інформацію про їх усну мову. [2] Розроблений додаток може внести значний внесок у сферу аналізу мовлення та допомогти користувачам покращити їхні комунікативні навички за допомогою аналізу даних і цільового зворотного зв’язку. Ключові слова: мовленнєвий аналіз, інтелектуальний програмний засіб, розпізнавання мовлення, візуалізація даних, аудіо-дані, Speech-to-Text. Перелік використаних літературних джерел: 1. Yangrui Yang, Yaping Zhu, Sisi Chen, Pengpeng Jian (2023). API comparison knowledge extraction via prompt-tuned language model. Journal of Computer Languages Volume 75, June 2023, 101200. URL: https://doi.org/10.1016/j.cola.2023.101200 2. Mark Gales, Steve Young (2008). The Application of Hidden Markov Models in Speech Recognition. Vol. 1, No. 3 (2007) 195–304. URL: https://mi.eng.cam.ac.uk/~mjfg/mjfg_NOW.pdf 3. Jurafsky, D., & Martin, J. H. (2000). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice Hall PTR. URL: https://web.stanford.edu/~jurafsky/slp3/ 4. Saon, G., Soltau, H., Nahamoo, D., & Picheny, M. (2017). Speaker adaptation of neural network acoustic models using i-vectors. In ASRU. URL: https://ieeexplore.ieee.org/document/8268994 5. Raschka, S., & Mirjalili, V. (2019). Python Machine Learning: Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow 2 (3rd ed.). Packt Publishing. URL: https://www.packtpub.com/product/python-machine-learning-third-edition/9781789955750