Інтелектуальна система агрегації новин
Автор: Теплий Ярослав Богданович
Кваліфікаційний рівень: магістр (ОНП)
Спеціальність: Системний аналіз (освітньо-наукова програма)
Інститут: Інститут комп'ютерних наук та інформаційних технологій
Форма навчання: денна
Навчальний рік: 2022-2023 н.р.
Мова захисту: українська
Анотація: У епоху цифрових технологій, споживання новин значною мірою змістилося в сторону соціальних мереж та месенджерів. Ця зміна, зокрема в Україні [1], зумовила необхідність розробки систем агрегації новин, яка б відображала динамічний характер сучасного інформаційного середовища. Традиційні методи агрегації новин, вже не відповідають усім вимогам користувачів, тому зростає потреба в інтелектуальній системі агрегації новин, здатній ефективно збирати та обробляти новини з різних джерел, включаючи соціальні мережі та месенджери. Система, розроблена в цій роботі, використовує методи штучного інтелекту (AI) і обробки природної мови (NLP), щоб надавати користувачам персоналізований та релевантний контент. Об’єктом дослідження є процес агрегування новин із різноманітних джерел і надання персоналізованих рекомендацій на основі вподобань користувачів. Предмет дослідження охоплює методології та інструменти, залучені в розробці інтелектуальної системи агрегації новин, яка використовує методи AI та NLP для інтелектуального аналізу тексту новин. Метою дослідження є розробка інтелектуальної системи агрегації новин, яка надає функціонал для широкого спектра груп користувачів і полегшує інтеграцію із зовнішніми системами. Мета розробки системи полягає в тому, щоб надати користувачам доступ до останніх новин із різноманітних джерел, адаптованих до їхніх унікальних інтересів і вподобань. Розроблена система пропонує удосконалений підхід до агрегації новин, інтегруючи новини із нетрадиційних джерел, таких як соціальні мережі та месенджери, що гарантує користувачам доступ до актуальних новин із різних джерел та сприятиме розширенню кругозору та висвітленню різних думок. Використовуючи сучасні алгоритми обробки природної мови, система ефективно аналізує та класифікує великі обсяги даних, забезпечуючи таким чином надання інформації, яка відповідає інтересам користувачів. Система побудована на принципах прозорості, що дозволяє користувачам зрозуміти, чому їм рекомендовано ті чи інші новини та надає можливість налаштовувати стрічку новин відповідно до власних побажань. Система розроблена таким чином, щоб бути масштабованою, відмовостійкою та надавати відкриті API для легкої інтеграції з іншими службами та платформами. Така архітектура не тільки забезпечує доступність системи для широкого кола користувачів, але й сприяє розвитку спільноти розробників, які можуть покращити її функціональність. Для реалізації інтелектуальної складової системи, було проведено експериментальний аналіз чотирьох моделей рекомендацій новин. Цей аналіз включав DKN [4], NRMS [6], TANR [7] і NAML [5] моделі та став основою для інтелектуального компонента системи. Моделі оцінювалися на основі трьох типів вкладень слів: випадково ініціалізовані, контекстно-усереднених BERT [2] і GloVe [3]. Результати експерименту показують покращення в усіх моделях під час навчання з використанням контекстно-усереднених вкладень BERT та GloVe. Найкращі результати показала модель NAML із вкладенням GloVe, саме тому її було використано для надання рекомендації новин. Архітектура системи складається з кількох ключових компонентів, до них входять компоненти агрегації та обробки даних, компонент машинного навчання, компонент інтерфейсу користувача та бекенд компонент. Взаємодія між цими компонентами формує основу системи, забезпечуючи ефективний потік даних від збору, обробки до кінцевого відображення інформації для користувача. Для розробки компонентів машинного навчання було обрано Python разом із бібліотекою PyTorch, а базою даних було обрано MongoDB. Інтерфейс користувача доступний у вигляді Telegram бота та написаний на Java. Для розгортання та керування системою використовувалися Docker та Kubernetes. Очікується, що впровадження цієї інтелектуальної системи агрегації новин матиме численні позитивні наслідки. Серед них можна зазначити, покращення взаємодії з користувачем, швидкий доступ до інформації, підвищення обізнаності користувачів, повніше та збалансоване уявлення про поточні події та заохочення користувачів до нових тем і думок. Для власників і редакторів джерел новин система може надати цінну інформацію про вподобання користувачів і тенденції, які можна використовувати для оптимізації виробництва контенту. API системи дозволяє легко інтегрувати її зі сторонніми платформами та службами, розширюючи її охоплення та корисність. Нарешті, зібраний набір даних про новини можна використовувати для академічних досліджень, аналізу ринку та визначення тенденцій, сприяючи тим самим кращому розумінню динаміки інформаційного простору. Отже, інтелектуальна система агрегації новин, представлена у цій роботі, є значним удосконаленням у сфері споживання новин, пропонуючи комплексну, орієнтовану на користувача та універсальну платформу, яка відповідає динаміці розвитку сучасного інформаційного середовища. Система обіцяє значно покращити користувацький досвід та служитиме ресурсом для академічних і ринкових досліджень. Ключові слова – агрегація новин, моделі рекомендації новин, моделі трансформери, векторні представлення слів, інтелектуальні системи. Перелік використаних літературних джерел. 1. Statista Research Department. Most popular social networks for getting news in Ukraine 2019-2022. https://www.statista.com/statistics/1029018/social-networks-for-news-inukraine/. Accessed 2023-05-19. 2022. 2. Jacob Devlin та ін. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805 (2018). 3. Jeffrey Pennington & Richard Socher & Christopher D Manning. Glove: Global vectors for word representation. Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). 2014, pp. 1532-1543. 4. Hongwei Wang DKN: Deep knowledge-aware network for news recommendation. Proceedings of the 2018 world wide web conference. 2018, pp. 1835-1844. 5. Chuhan Wu. Neural news recommendation with attentive multi-view learning. arXiv preprint arXiv:1907.05576 (2019). 6. Chuhan Wu. Neural news recommendation with multi-head self-attention. Proceedings of the 2019 conference on empirical methods in natural language processing and the 9th international joint conference on natural language processing (EMNLP-IJCNLP). 2019, pp. 6389-6394. 7. Chuhan Wu. Neural news recommendation with topic-aware news representation. Proceedings of the 57th Annual meeting of the association for computational linguistics. 2019, pp. 1154-1159.