Інформаційна система для емоційно-змістового аналізу текстів українською мовою
Автор: Зубрицька Зоряна Андріївна
Кваліфікаційний рівень: магістр
Спеціальність: Інформаційні системи та технології
Інститут: Інститут комп'ютерних наук та інформаційних технологій
Форма навчання: денна
Навчальний рік: 2020-2021 н.р.
Мова захисту: англійська
Анотація: Зубрицька З.А., Литвин В.В. (керівник). Інформаційна система для емоційно-змістового аналізу текстів українською мовою. Магістерська кваліфікаційна робота. – Національний університет «Львівська політехніка», Львів, 2020. Розширена анотація. Емоційно-змістовий аналіз – інструмент для виокремлення особистих думок та настроїв із текстів, який допомагає компаніям краще розуміти своїх клієнтів, оперативно реагувати на зворотний зв’язок та вдосконалювати свої продукти відповідно до потреб ринку. Також алгоритми аналізу настроїв активно використовуються для моніторингу соцмереж, щоб з’ясувати ставлення користувачів до різноманітних соціальних тем, таких як політика, фемінізм чи медичні реформи.[5] Алгоритми аналізу настроїв або базуються на рукописних правилах та словниках сентиментів, або використовують моделі машинного навчання та нейронних мереж. Гібридні алгоритми використовують обидва підходи. [4] Існує багато програм та засобів для аналізу настроїв текстів англійською мовою [6], в той час як для українських текстів лише починають з’являтись перші рішення [1, 2]. В українському інформаційному просторі ще немає програм для емоційно-змістового аналізу відгуків українською мовою для моніторингу брендів, тому існує необхідність створення такої інформаційної системи. Об’єкт дослідження – розроблення інформаційної системи для емоційно-змістового аналізу текстів, пов’язаних із косметологічною продукцією, для моніторингу здоров’я брендів. Предмет дослідження – методи та засоби створення інформаційної системи для емоційно-змістового аналізу текстів українською мовою. Методи дослідження – системний аналіз та моделювання предметної області за допомогою UML-діаграм. Метою цієї роботи є розроблення інформаційної системи, яка збиратиме відгуки про бренди українською мовою, проводитиме емоційно-змістовий аналіз цих відгуків та графічно зображатиме результати у зручній для користувача формі. До ефектів від створення інформаційної технології для аналізу настроїв можна віднести: зручний сервіс для моніторингу відгуків українською мовою, ефективний зворотний зв’язок, миттєве опрацювання негативних відгуків, аналіз роботи бренду у хронологічній перспективі, отримання даних для вибору цільової аудиторії і найефективніших онлайн каналів роботи з клієнтами та для покращення маркетингової стратегії. Вимогами до розробки такого програмного забезпечення є: збір та опрацювання відгуків конкретних брендів, сортування відгуків за продуктами та їхніми оцінками, аналіз відгуків за полярністю, а також сортування даних, індексація, синтаксичний аналіз, емоційно-змістовий аналіз та графічне представлення. Магістерська кваліфікаційна робота складається із чотирьох розділів. У першому розділі здійснюється аналітичний огляд джерел, пов’язаних із предметною областю, та досліджується питання актуальності створення інформаційної технології для емоційно-змістового аналізу. У другому розділі проводиться системний аналіз предметної області та за допомогою UML-діаграм графічно зображуються процеси функціонування, об’єкти та класи предметної області. У третьому розділі обґрунтовується доцільність обраних методів та засобів для реалізації програмного продукту. Четвертий розділ описує програмну реалізацію продукту та зображує результати виконаної роботи. Інформаційна система була створена за допомогою таких засобів: мова програмування Python, бібліотеки Requests та BeautifulSoup для збору даних, бібліотека Pandas для маніпуляції даними, середовище управління базами даних MySql та бібліотека Mathplotlib для створення графіків та візуалізації даних. Перед початком розроблення програми за допомогою дерева цілей та методу аналізу ієрархій був вибраний алгоритм роботи системи, який передбачає аналіз даних на основі полярності окремих слів та порядку цих слів у реченні. Далі був створений словник сентиментів та розроблені правила для опрацювання тексту. Робота програми складається із чотирьох етапів: збір даних, очищення даних, яке включає перевірку мови, емоційно-змістовий аналіз даних та виведення результатів та візуалізація даних. Вхідними даними є адреси веб-сайтів, із яких потрібно зібрати інформацію та ключові слова, за якими треба робити пошук, а вихідними даними є таблиці із відгуками та значеннями полярності і графіки, побудовані на основі цих таблиць. На основі контрольного прикладу було доведено що розроблена інформаційна система ефективно виконує всі поставлені перед нею завдання та є зручним засобом для емоційно-змістового аналізу відгуків українською мовою. Ключові слова: інформаційна система, програмне забезпечення, емоційно-змістовий аналіз, аналіз тональності, обробка природної мови, українська мова. Перелік використаних літературних джерел. 1. Кілька корпусів української мови [Електронний ресурс] : стаття. – Режим доступу: https://maksymus.wordpress.com/2018/08/15/501030/ (дата звернення 01.11.2020). – Назва з екрана. 2. Проекти групи lang-uk [Електронний ресурс] : стаття. – Режим доступу: https://lang.org.ua/uk/ (дата звернення 01.11.2020). – Назва з екрана. 3. List of natural language processing tasks [Електронний ресурс] : стаття. – Режим доступу: https://natural-language-understanding.fandom.com/wiki/List_of_natural_ language_processing_tasks (дата звернення 01.11.2020). – Назва з екрана. 4. NLP-in-Python Tutorial [Електронний ресурс] : стаття. – Режим доступу: https://github.com/adashofdata/nlp-in-python-tutorial (дата звернення 01.11.2020). – Назва з екрана. 5. Sentiment analysis [Електронний ресурс] : стаття. – Режим доступу: https://monkeylearn.com/sentiment-analysis/ (дата звернення 01.11.2020). – Назва з екрана. 6. 10 sentiment analysis tools to measure brand health [Електронний ресурс] : стаття. – Режим доступу: https://www.socialmediatoday.com/news/10-sentiment-analysis-tools-to-measure-brand-health/575334/ (дата звернення 01.11.2020). – Назва з екрана.