Система визначення сарказму в англомовному тексті
Автор: Заньчак Марія Степанівна
Кваліфікаційний рівень: магістр
Спеціальність: Аналіз даних (Data Science)
Інститут: Інститут комп'ютерних наук та інформаційних технологій
Форма навчання: денна
Навчальний рік: 2023-2024 н.р.
Мова захисту: англійська
Анотація: Завдання виявлення сарказму є складним, оскільки для цього відсутні очевидні ознаки, такі як інтонація, вирази обличчя чи жести. Застосування виявлення сарказму може приносити користь у багатьох галузях NLP. Сарказм є серйозною перешкодою для підвищення точності аналізу настрою, особливо в соціальних мережах, він часто залежить від тону голосу, міміки та жестів, які не можуть бути передані в письмовому вигляді. [4,5] Розуміння справжніх настроїв у онлайн-розмовах може допомогти підприємствам обробляти відгуки клієнтів і отримувати ідеї для поліпшення маркетингової стратегії. З погляду кібербезпеки та оборони, аналіз настроїв може служити важливим сигналом для виявлення проблем або можливих дій зловмисників в Інтернеті. Розпізнавання саркастичних висловлювань може бути корисним при покращенні автоматичного аналізу настроїв в соціальних мережах, сприяючи ефективнішому обслуговуванню клієнтів та розумінню їхніх намірів та поглядів під час автоматизованого аналізу їхніх відгуків або скарг. Засоби виявлення сарказму дозволяють компаніям аналізувати настрої клієнтів стосовно своєї продукції, що в подальшому допоможе покращити якість продукту. [9,10,11] Мета дослідження ств?рення програмного забезпечення для визначення сарказму у тексті. Предметом дослідження є методи виявлення сарказму в тексті та розроблення системи визначення сарказму в англомовному тексті. Об’єктом дослідження є процес визначення сарказму в англомовному тексті. Результатом роботи є система виявлення сарказму в тексті, розроблена на мові програмування Python. Ця система використовує модель, яка базується на нейронних мережах. Для створення цієї моделі був використаний маркований набір даних, що доступний на сайті Kaggle. Попереднім опрацюванням тексту було: видалення стоп-слів, приведення всіх слів до нижнього регістру, видалення цифр та пунктуації з тексту. Далі текст векторизується за допомогою словника Glove. Модель включає в себе шар вбудування, який використовується для перетворення послідовності слів в вектори фіксованої довжини. Наступний LSTM - це рекурентний шар, який допомагає моделі зберігати довгострокову залежність в тексті. Цей шар обробляє текст як зліва направо, так і справа наліво, і повертає послідовні виходи для кожного часового кроку, а не лише для останнього. Це дозволяє моделі мати доступ до інформації з минулих і майбутніх часових кроків одночасно. Після LSTM використовується GRU, який також є рекурентним шаром, але вирішує проблему зникнення градієнта. GRU також є двонапрямленим і використовується для отримання подвійного контексту тексту. Після рекурентних шарів в моделі використовуються два повнозв’язних шари. Перший Dense шар має 128 нейронів і активацію ReLU, а другий Dense шар має 1 нейрон і активацію Sigmoid. Останній шар використовується для бінарної класифікації тексту, а саме визначення сарказму, оскільки він видає значення від 0 до 1, що вказує на відсоток сарказму у тексті. Ця архітектура моделі допомагає вивчати складні залежності в тексті завдяки використанню рекурентних шарів і двонапрямленого підходу, що дозволяє враховувати контекст як зліва, так і справа від кожного слова в тексті. Гібридна нейронна мережа показує високу точність визначення сарказму. Точність моделі на тренувальному сеті = 92% Точність на тестувальному сеті = 83% Матриця невідповідності: (4049¦940 511¦3086 ) 4049 записів правильно визначено як саркастичні. 3086 записів правильно визначено як несаркастичні. 511 записів неправильно визначено як саркастичні. 940 записів неправильно визначено як не саркастичні. Спрацювання на саркастичних даних рівне 81%. Спрацювання на не саркастичних даних рівне 86%. Система пройшла тестування, верифікацію та валідацію, а також розгорнута у веб-застосунку. У майбутньому можливо розглядати додаткові аспекти тексту, такі як кількість знаків питання, оклику і крапок. Також можна враховувати нові синтаксичні особливості, що ґрунтуються на включених у текст вставних словах (наприклад, "oh" і "wow") та виразах сміху (як "lol," "hahaha," "rofl"). Смайлики та хештеги також можна розглядати як характеристики тексту. Для майбутніх версій продукту рекомендується розширити спектр текстових особливостей, таких як мовні вирази. Крім того, сарказм може бути мультимодальним і включати в себе зображення та GIF. Це особливо актуально для соціальних мереж, таких як Twitter, де відповіді на твіти часто супроводжуються GIF і відео. Таким чином, є необхідність розширити систему, включаючи методи виявлення сарказму в мультимодальному контексті. Дані з соціальних мереж щодо сарказму також можуть включати аналіз смайликів, оскільки вони можуть додавати більше смислу до тексту. Необхідно навчити модель враховувати смайлики. Ключові слова: Визначення сарказму, LSTM, GRU, векторизація Glove, NLP. Перелік використаних літературних джерел: Fouad, M.M., Gharib, T.F., Mashat, A.S: Efficient Twitter Sentiment Analysis System with Feature Selection and Classifier Ensemble. In: The International Conference on Advanced Machine Learning Technologies and Applications (2018, January), 2018. 516-527 p. URL:https://doi.org/10.1007/978- 3-319-74690-6 51 Barbieri, F., Ronzano, F., & Saggion, H. Sentiment analysis of literal and figurative language in Twitter. In Proceedings of the 9th International Workshop (2015, June), 2015. 30-33 p. Yadollahi, A., Shahraki, A. G., & Zaiane, O. R. Current state of text sentiment analysis from opinion to emotion mining. ACM Computing Surveys, 2017. 25 p. Tungthamthiti, P., Kiyoaki, S., & Mohd, M. Recognition of sarcasms in tweets based on concept level sentiment analysis and supervised learning approaches. In Proceedings of the 28th Pacific Asia conference on language, information and computing, 2014. 404–413 p. Signhaniya, A., Shenoy, G., & Kondekar, R. Sarcasm detection in social media. 2015. 50-55 p.