Інформаційна система аналізу новин у соціальних мережах
Автор: Труш Тарас Володимирович
Кваліфікаційний рівень: магістр
Спеціальність: Інформаційні системи та технології
Інститут: Інститут комп'ютерних наук та інформаційних технологій
Форма навчання: денна
Навчальний рік: 2021-2022 н.р.
Мова захисту: українська
Анотація: В сьогоднішні дні інформаційні технології та світ, в загальному, розвиваються надзвичайно швидко. Щоб мати можливість виконувати якусь успішну діяльність, людям потрібно відповідати даному розвитку навколишнього середовища. Однією із областей, яку слід брати до уваги — це соціальні мережі. Ця галузь дуже швидко розвивається та може колосально впливати на економіку компаній-гігантів, наприклад, Tesla. Це платформа, де люди створюють терабайти відкритої інформації щодня. Це інструмент впливу на суспільство та бізнес, а для когось, соціальні мережі — це і є бізнес. Варто розуміти, що використання інформації із соціальних мереж може принести вагомий вплив на соціальне життя, сферу бізнесу та політику. А враховуючи об’єми такої інформації, зрозуміло, що виконувати опрацювання вручну — це неефективно. Тому потрібно автоматизувати всі можливі процеси аналізу цих даних. Компанії-власники соціальних мереж дають змогу розміщувати цільову рекламу, яка є найефективнішою в наші дні. Але це не весь потенціал відкритої інформації. Можна безліч разів показати рекламу потенційному покупцю, але він не купить пропоновану послугу або продукцію. “Чому?” - це питання є ключовим. Для того, щоб наблизитись до відповіді, потрібно дослідити думки людей. Саме в даному питанні величезні об’єми даних із соціальних мереж можуть стати фундаментом для отримання відповіді. За допомогою класифікації можна згрупувати новини та повідомлення за такими параметрами: мову написання повідомлення, локацію, стать автора, вік автора. Дані дії є дуже простими але вони вже можуть принести певну користь для маркетологів та політологів. Але це не все. Для отримання більш корисної інформації потрібно використати методи машинного навчання. Наприклад, метод бінарної класифікації [1]. Даний метод відповідає за те, щоб поділити певну вибірку на дві підмножини, які будуть відповідати двом різним класам. Проектуючи це на проблемну область, даний метод можна використати для класифікації новин на позитивні новини (які хвалять когось або щось) та негативні (несуть певне незадоволення чимось). В результаті, отримуємо класифікацію новин за локаціями, користувачами, мовами та поділом на негативні та позитивні. Отримані результати потрібно візуалізувати, в такому вигляді людині легше сприймати інформацію. Маючи таку статистику, компанії можуть отримувати важливу інформацію про деталі незадоволення користувачів продукцією і робити якісь покращення у виробництві або протидіяти підробкам у конкретному регіоні (на основі локалізованих негативних відгуків). Маркетологи та політологи можуть краще налаштовувати цільову рекламу. Об’єкт дослідження: процес аналізу новин у соціальних мережах. Предмет дослідження: методи та засоби для аналізу новин у соціальних мережах. Мета дослідження: проектування та створення інформаційної системи аналізу новин у соціальних мережах, яка націлена на полегшення процесу отримання статистики новин дотичних до обраної теми. Ця магістерська робота містить дослідження, розробку та впровадження інформаційної системи аналізу новин у соціальних мережах. Розкрито основні поняття досліджуваної галузі. Проаналізовано найпопулярніші способи вирішення проблеми. Виявлено суттєві недоліки цих систем, деякі із них були вирішені у власній. За допомогою методів системного аналізу досліджено та розроблено інформаційну систему аналізу новин у соціальних мережах. Дерево цілей було побудовано для поетапного представлення процесу досягнення головної мети. Побудовано та описано UML діаграми для детального опису процесів та їх послідовності, класів, їхніх методів та залежностей між класами. В результаті була створена ієрархія процесів у вигляді дерева, що показує нам основні функції системи. Перед розробкою системи було підібрано програмні засоби, програми та мови програмування для зручної розробки та найкращого досвіду користувача у використанні системи в майбутньому. Описано їхні технічні та системні характеристики, порівняно із альтернативами. Під час впровадження системи була використана мова програмування C# з її основою для кросплатформного програмування під назвою Microsoft .Net 3.0, вона дуже швидка і в той же час проста у використанні. Також були використані інші програми, такі як SQL Server Management Studio для комфортного використання бази даних на основі SQL, що забезпечує практично всі операції з базами даних. В результаті створено продукт – інформаційну систему для аналізу новин у соціальних мережах у вигляді кросплатформного додатка. Для цієї системи створено опис, який містить інформацію про функціональне призначення, логічну структуру, технічні засоби, які були використані, процеси виклику та завантаження, вхідні та вихідні дані, інтерфейс тощо. Ключові слова: новини, соціальні мережі, аналіз новин, Twitter. Перелік використаних літературних джерел. 1. 4 Types of Classification Tasks in Machine Learning [Електронний ресурс]. - Режим доступу до ресурсу: https://machinelearningmastery.com/types-of-classification-in-machine-learning/.