Освіта у Львівській політехніці

Система розпізнавання і модерування неприпустимого контенту на вебсторінках

Автор: Твердохліб Олексій Петрович

Кваліфікаційний рівень: магістр

Спеціальність: Аналіз даних (Data Science)

Інститут: Інститут комп'ютерних наук та інформаційних технологій

Форма навчання: денна

Навчальний рік: 2024-2025 н.р.

Мова захисту: українська

Анотація: Інтернет надав людям безпрецедентну свободу слова. Однак, з такого величезного привілею і можливості випливає і свобода створення неприпустимого вмісту[1]. Неприпустимим вмістом може бути зображення з текстом, відверті фото, лайка, написані слова, які можуть засмучувати, тривожити або образити. Люди можуть зіткнутися з невідповідним контентом випадково або навмисно, до якого вони не готові. Це особливо актуально в контексті захисту вразливих груп населення, включаючи дітей, людей з психологічними захворюваннями, з тривожністю і тп. [2]. Завдяки розширенню, інтернет стане більш захищеним від негативного впливу небажаного контенту, сприяючи створенню більш позитивного і продуктивного онлайн середовища. Об’єктом дослідження є процес автоматичного виявлення та цензурування неприпустимого контенту (тексту та зображень) на веб сторінках. Предметом дослідження є методи та технології цензурування неприпустимого контенту на веб сторінках за допомогою браузерного розширення. Метою роботи є розробка та впровадження ефективної системи цензурування неприпустимого контенту на веб сторінках за допомогою браузерного розширення, що призведе до покращення комфорту та якості перегляду інтернет-ресурсів користувачами. Ця система дозволить користувачам контролювати та фільтрувати контент, з яким вони стикаються в мережі Інтернет. Основними завданнями роботи є: 1. Аналіз існуючих підходів і технологій для цензурування неприпустимого контенту на веб-сторінках. 2. Ознайомлення з методами штучного інтелекту для аналізу тексту та зображень. 3. Визначення основних компонентів системи цензурування та розробка їх архітектури. 4. Тренування моделей для досягнення необхідних результатів. 5. Реалізація методів аналізу тексту та зображень. 6. Створення зручного інтерфейсу для налаштування параметрів цензури. 7. Тестування розширення на різних веб-сторінках та оптимізація його роботи для підвищення ефективності. У роботі було проведено системний аналіз для системи. Ідентифіковано системи аналоги; Net Nanny, K9 Web Protection, Adblock Plus. Advanced Profanity Filter, Advanced Profanity Filter. Для них створено шкали показників, на їх базі порівняно характеристики. Зважаючи на ці результати, створення проекту було доцільним і необхідним. Було проаналізовано бізнес-процеси та продемонстровано взаємодію між учасниками за допомогою методології BPMN. Окреслено вимоги до системи: бізнес-вимоги, користувацькі, функціональні та нефункціональні. Ідентифіковано зацікавлені сторони, передумови прецеденту, основний сценарій успіху, альтернативні шляхи, пост-умови, системні та додаткові вимоги, а також необхідні технології. На основі цих вимог створено діаграму варіантів використання за UML-нотацією. Також визначено класи об’єктів, їх атрибути, методи та зв’язки для побудови діаграми класів. Розроблено описи ключових процесів у вигляді UML-діаграми діяльності та створено діаграми послідовності. Програми Lucidchart, Visual paradigm та Rational Rose використовувалися для побудови BPMN та UML діаграм. Було визначено завдання роботи, описано ключові функції та мету розроблення. Подано детальний опис призначення системи та зазначено її місце застосування. Обґрунтовано необхідність створення системи, проведено її розроблення та сплановано впровадження. Також окреслено очікувані ефекти від впровадження системи. Була обрана інкрементна модель розробки ПЗ. Для класифікації тексту були використані такі алгоритми, як Naive Bayes, Decision Tree, Random Forest, Logistic Regression і KNN. Також використана бібліотека FastText. Для створення та навчання моделей було використано Google Colab. Python був мовою програмування, яка використовувалася для попередньої обробки даних, навчання моделі та оцінювання. Найкращий результат точності класифікації виявився у FastText, а саме: 92%. Бібліотеки pytesseract, NudeDetector використовувалися для завдань розпізнавання зображень. Для розробки розширення Google використовувалися React JS, Firebase і GitHub. Ці технології дозволили створити інтерактивний і зручний інтерфейс. Методом тестування, було доведено, що проект успішно відповідає поставленим задачам і вимогам. Також система є економічно доцільною. Розроблений засіб продемонстрував ефективність у вирішенні визначеної задачі в заданих умовах, забезпечуючи отримання коректних і релевантних результатів. Система справляється з основними функціями: «Приховати слова з Вашого словника», «Приховати неприпустимий текст», «Приховати зображення з неприпустимим текстом», «Приховати зображення з оголеністю». Розширення можна встановити на будь-який веб-браузер, що забезпечує його доступність для великої кількості користувачів. Це сприяє поширенню інструмента та забезпечує його корисність для різних категорій інтернет-користувачів. Ключові слова – соціальні мережі, вебсайти, цензурування тексту, цензурування зображень, алгоритми класифікації тексту, надання мітки, приховання вмісту, Profanity Eater, Naive Bayes, Decision Tree, Random Forest, Logistic Regression, KNN, FastText. Перелік використаних літературних джерел: 1. Morozov E. The Net Delusion: The Dark Side of Internet Freedom / E. Morozov. – New York: PublicAffairs, 2011. – 384 с. 2. Heins M. Not in Front of the Children: "Indecency," Censorship, and the Innocence of Youth / M. Heins. – New York: Hill and Wang, 2001. – 416 с.