Інтелектуальна система виявлення фейкових новин на основі глибинних нейронних мереж

Автор: Березовський Максим Ігорович
Кваліфікаційний рівень: магістр
Спеціальність: Аналіз даних (Data Science)
Інститут: Інститут комп'ютерних наук та інформаційних технологій
Форма навчання: денна
Навчальний рік: 2024-2025 н.р.
Мова захисту: українська
Анотація: У даній роботі об’єкт дослідження - це процес поширення фейкових новин у цифровому середовищі, зокрема у соціальних мережах та новинних платформах, оскільки дезінформація, яка поширюється в таких середовищах, створює загрозу, яка може проявлятись різними способами. Предмет дослідження Предметом дослідження є виявлення фейкових новин за допомогою глибинних нейронних мереж. Мета роботи Метою роботи є розробка та впровадження інтелектуальної системи (розробка графічного інтерфейсу, розробка інструментів для агента та впровадження їх в алгоритм ReAct) на основі глибинних нейронних мереж для автоматичного виявлення фейкових новин. Основним результатом цієї роботи стане алгоритм, який складатиметься із декількох етапів, кожен з яких, аналізує різні аспекти фейковості новини та в результаті дає комбіновану оцінку фейковості новини та пояснення чому дана новина є фейком або не є фейком. Оскільки фейкова новина може бути представлена у різноманітних форматах, таких як: зображення, стаття, підробні дані тощо, виникають сумніви щодо можливості розробки однієї системи, яка зможе ефективно класифікувати усі форми фейкових новин. З цієї причини, дана робота фокусується на аналізі лише фейкових статтей, текстів або конкретних висловлювань чи тез із можливістю розширення функціональності в майбутньому. Слід також підмітити, що дана робота не ставить на меті розробку системи, яка зможе повноцінно замінити ручний процес факт-чекінгу, який проводить досвідчений спеціаліст, оскільки поточний етап розвитку систем штучного інтелекту не дозволяє даним системам повноцінно планувати, мислити та шукати інформацію так, як це може робити людина. У сучасному світі проблема поширення фейкових новин стає все більш актуальною та потребує ефективних рішень для її подолання. У рамках даної роботи було проведено комплексне дослідження та розроблено інтелектуальну систему для виявлення фейкових новин, яка поєднує найкращі існуючі підходи та впроваджує нові ідеї для досягнення високої точності та ефективності. В межах даної роботи був проведений огляд чотирьох існуючих підходів до класифікації фейкових новин, який включав у себе аналіз запропонованих принципів роботи та розбір сильних і слабких сторін кожного рішення. На основі цих даних було створене бачення ідеального рішення, яке зможе аналізувати не лише текст новинних заголовків, а й текст повноцінних новин. Рішення складається із аналізу тексту новини на наявність восьми ознак, які часто зустрічаються у фейкових новинах. Після цього відбувається процес факт-чекінгу, який використовує велику мовну модель та алгоритм ReAct. Після проведення факт-чекінгу система виконує алгоритм класифікації, який видає оцінку достовірності новини, яка потім конвертується в одну із трьох категорій – «фейк», «правда», «недостатньо інформації». Результати роботи впровадженого рішення проілюстровані за допомогою тестування графічного інтерфейсу та алгоритму класифікації, отримані такі метрики: · Точність: 80% · Влучність: 80% · Повнота: 80% · F-міра: 80% На тестувальному наборі у 10 новин, кожна із яких мала різну довжину. Дані метрики свідчать що система добре збалансована між тим, щоб не пропускати фейкові новини та не помилково позначати правдиві новини як фейкові. Окремо було розглянуто недоліки системи та запропоновано варіанти їх вирішення або пом’якшення їх впливу на кінцевий результат. Ключові слова: велика мовна модель, GPT-4, ReAct, фейкові новини Перелік використаних літературних джерел: 1. Jiajun Zhang, Zhixun Li, Qiang Liu, Shu Wu, Liang Wang. Evolving to the Future: Unseen Event Adaptive Fake News Detection on Social Media 2. Elena Shushkevich 1, Mikhail Alexandrov 2and John Cardiff 1,* Improving Multiclass Classification of Fake News Using BERT-Based Models and ChatGPT-Augmented Data 3. Srinivasa K, P Santhi Thilagam. Multi-layer perceptron-based fake news classification using knowledge base triples 4. Jing Ma, Wei Gao, Kam-Fai Wong. Rumor Detection on Twitter with Tree-structured Recursive Neural Networks 5. Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao. ReAct: Synergizing Reasoning and Acting in Language Models 6. Документація бібліотеки langchain https://www.langchain.com/ 7. Документація бібліотеки Instructor https://python.useinstructor.com/ 8. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin. Attention is All You Need 9. OpenAI, Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad та ін. GPT-4 Technical Report 10. Технічний звіт моделі LLama-3.1 https://ai.meta.com/blog/meta-llama-3-1/ 11. Gemma Team, Google DeepMind. Gemma2