Система автоматизованого визначення авторства тексту за допомогою статистичних методів

Автор: Науличний Василь Володимирович
Кваліфікаційний рівень: магістр
Спеціальність: Інформаційні технології проектування
Інститут: Інститут комп'ютерних наук та інформаційних технологій
Форма навчання: денна
Навчальний рік: 2020-2021 н.р.
Мова захисту: українська
Анотація: Науличний В.В., Денисюк П.Ю. (керівник). Система автоматизованого визначення авторства тексту за допомогою статистичних методів. Магістерська кваліфікаційна робота. – Національний університет «Львівська політехніка», Львів, 2020. Розширена анотація. Задача визначення авторства тексту не є новою, вона має довгу історію і на даний момент розроблено багато підходів та методів, які дають змогу її вирішити [1]. Кожен з них має свої обмеження та умови, при яких їх використання буде ефективним. В цій роботі розглянуто варіант перевірки авторства тексту з використанням статистичних критеріїв. Розроблена програмна реалізація цього підходу. Об’єкт дослідження – автоматизоване визначення авторства тексту за допомогою статистичних методів. Мета роботи – дослідити використання статистичних методів для перевірки авторства текстів, на основі проведениих досліджень розробити систему для автоматизованого визначення авторства тексту. В ході виконання роботи розроблено систему автоматизованого визначення авторства тексту за допомогою статистичних критеріїв. Для визначення схожості стилю написання текстів використовуються критерії Хі-квадрат, Стьюдента та Колмогорова-Смірнова. Цими критеріями порівнюються вибірки груп приголосних звуків двох текстів. Розроблено та описано архітектуру програми яка реалізує даний підхід. В роботі детально пояснено структуру та призначення кожного елемента цього проекту. Наведено приклади вхідних та вихідних даних, показано вигляд графічного інтерфейсу користувача та додано інструкції де пояснюється як користуватись програмою. Також за допомогою графічного матеріалу детально показується алгоритм перевірки авторства тексту. Програмне рішення створено з використанням сучасних технологій та підходів, які на даний момент широко використовуються в галузі розроблення програмного забезпечення. Основою для розробки програми є мова програмування Java та Spring Framework, які зараз дуже популярні та мають ряд переваг, які наведені в роботах [2,3]. Частину, яка відповідає за обчислення статистичних критеріїв розроблено, використавши мову програмування R та її інтерпретатор, який працює на основі JVM – Renjin [4]. В економічній частині здійснено оцінку доцільності та вартість розробки програмного продукту, оцінено його якість за різними критеріями Ключові слова – визначення авторства, статистичний критерій, аналіз тексту, Java, Spring Framework, R Language, Renjin. Перелік використаних джерел: Koppel M. Computational Methods in Authorship Attribution. Journal of the Association for Information Science and Technology / M. Koppel. // Journal of the Association for Information Science and Technology. – 2009. The State of Developer Ecosystem 2020 [Електронний ресурс]. – 2020. – Режим доступу до ресурсу: https://www.jetbrains.com/lp/devecosystem-2020/. Java 2019 - The state of Developer Ecosystem in 2019 Infographic [Електронний ресурс]. – 2019. – Режим доступу до ресурсу: https://www.jetbrains.com/lp/devecosystem-2019/java/. Introduction — Renjin 3.5-beta50 documentation [Електронний ресурс]. – 2020. – Режим доступу до ресурсу: http://docs.renjin.org/en/latest/introduction.html