Освіта у Львівській політехніці

Система аналізу видобування інформації з текстових даних за допомогою штучної нейронної мережі

Автор: Линник Роман Олександрович

Кваліфікаційний рівень: магістр

Спеціальність: Аналіз даних (Data Science)

Інститут: Інститут комп'ютерних наук та інформаційних технологій

Форма навчання: денна

Навчальний рік: 2022-2023 н.р.

Мова захисту: українська

Анотація: З кожним роком галузь обробки природньої мови набуває все більшої популярності. Одною з головних засад цього напряму та актуальних наукових досліджень є видобуток цінної інформації з текстових документів. Це є досить актуальна тема у сучасному світі, оскільки інформації стає все більше, а не завжди є час, щоб власноруч все опрацьовувати, тому з кожним роком дана галузь стає все більш популярною та використовується в багатьох топ IT-компаніях світу Проблема з усією цією інформацією полягає в тому, що людям може бути надзвичайно важко бути в курсі всього, що їм потрібно, особливо тим, кому доводиться читати багато текстів, щоб зрозуміти суть того, що їм потрібно знати. Видобуток інформації з текстових даних є одним із таких рішень. Це дозволяє нам знайти час, щоб прочитати щось важливе, не витрачаючи на це надто багато часу. Таким чином ми заощадимо свій час і енергію, а також знизимо рівень стресу [1]. Метою дослідження є змоделювати та розробити систему аналізу видобутку короткої цінної змістовної інформації з великого масиву текстових даних для швидкого розуміння контексту роботи. Об’єктом дослідження є процес аналізу та видобування цінних текстових даних з великих наборів даних та формулювання коротких тез з описом змісту. Предметом дослідження є методи та принципи видобутку інформації з великого набору текстових даних. Результатом дослідження є система, яка видобуває дані з великого набору текстових даних за допомогою рекурентної нейронної мережі та обробки природньої мови, що допомагає зрозуміти вміст документу без безпосереднього його прочитання. Головним завданням видобутку інформації з великого набору текстових даних є допомага людині опрацювати великі потоки даних без великих затрат часу та зусиль. Часто буває при пошуку якихось даних, що необхідно довго перечитувати документ, що є доволі затратним по часу, або ж ситуація коли по роботі надсилають якийсь великий файл, який потрібно швидко опрацювати. Власне дана система якраз передбачатиме спрощення роботи з великими даними та пришвидшення роботи вцілому. Видобуток основного змісту тексту - це проблема створення короткого, точного та плавного резюме великого текстового документа. Автоматичні методи резюмування тексту дуже необхідні для вирішення постійно зростаючої кількості текстових даних, доступних в інтернеті, щоб як краще допомогти знайти релевантну інформацію, так і швидше споживати її. Загалом розрізняють два основних типи отримання змісту обробленої інформації з текстових даних: • Видобуток основних речень з найбільшою вагою змісту. • Створення нових речень на основі обробленої інформації. У даній магістерській кваліфікаційній роботі було розглянуто другий тип. Ця техніка передбачає створення абсолютно нових фраз, які передають значення вхідного речення. Основна ідея полягає в тому, щоб зробити сильний наголос на формі — щоб створити граматичне резюме, що вимагає передових методів моделювання мови [2]. Для побудови такої нейронної мережі використовується Encoder-Decoder (також Речення-Речення) алгоритм, який був вперше представлений в 2014 році на конференції Google. Дана модель має на меті зіставити вхідні дані фіксованої довжини з вихідними даними фіксованої довжини, де довжина вхідних і вихідних даних може відрізнятися, складається з трьох основних частин: енкодера, проміжного енкодера вектора та декодера. Стек із кількох рекурентних блоків (комірок LSTM або GRU для кращої продуктивності), де кожен приймає окремий елемент вхідної послідовності, збирає інформацію для цього елемента та поширює її вперед. Далі проміжний вектор, отриманий з частини моделі енкодера має на меті інкапсулювати інформацію для всіх вхідних елементів, щоб допомогти декодеру робити точні прогнози, а при кінці ми обчислюємо виходи, використовуючи прихований стан на поточному кроці часу разом із відповідною вагою [3]. Ключові слова – великий набір текстових даних, лстм, енкодер, декодер, резюмування тексту, релевантна інформація. Перелік використаних літературних джерел: 1. Sentence compression by deletion with lstms: / C.A.C.-m L.K. Katija Filippova, Enrique Alfonseca, O.Vinyals., 2017 – 42 с. 2. A neural attention model for abstractive sentence summarization: / S.C. Alexander M. Rush, J. Weston., 2015 – 32 с. 3. Abstractive sentence summarization with attentive recurrent neural networks: / M.A. Sumit Chopra, A.M. Rush., 2016 – 53 с.