Сервіс для пошуку плагіату в тексті

Автор: Надаховський Сергій Сергійович
Кваліфікаційний рівень: магістр
Спеціальність: Комп'ютерні системи та мережі
Інститут: Інститут комп'ютерних технологій, автоматики та метрології
Форма навчання: денна
Навчальний рік: 2020-2021 н.р.
Мова захисту: українська
Анотація: У даній магістерській кваліфікаційній роботі спроектовано сервіс для перевірки на плагіат. У роботі проаналізовано різноманітні способи збору даних для визначення рівня плагіату в введених даних, наведено основні характеристики та приведений загальний опис відомих принципів розроблення веб сайту, описано конкретні кроки розроблення і проектування продукту та розраховано приблизну ціну реалізованого дизайну додатка. Метою є розробка веб аплікації, що дозволить користувачам швидко та зручно визначити рівень плагіату в представленому тексті. Виконана розробка структурної схеми, та блок-схеми алгоритму. Також для візуалізації було створено прототип майбутнього сайту. Виконуючи магістерську кваліфікаційну роботу, було проведено глибокий аналіз різних підходів та алгоритмів для максимально оптимізованого та оптимального рішення. Важливу роль у сфері інформаційних технологій відіграє сукупність методів обробки та аналізу інформації (data mining). Спочатку ми зосередимося на конкретному понятті “подібності”: подібність обчислюється, дивлячись на відносний розмір їх перетину. Це поняття подібності називається «Подібністю Джакарда». Ми розглядаємо деякі з застосувань пошуку подібних наборів. До них належ ать пошук текстоподібних документів і спільна фільтрація шляхом пошуку подібних клієнтів і подібних продуктів. Для того, щоб перетворити проблему текстової схожості документів. Визначення подібної позиції в одному з перехресть ми використовуємо техніку, що називається «обшивка». Розв’язання задачі. З попередньо розглянутих алгоритмів в ході аналізу було вибрано: «Алгоритм Джакарда». 4 Алгоритм Джакарда представлений у вигляді множин S і T є | S?T | / | S?T |, тобто відношенням розміру перетину S і T до розміру їх об’єднання. Будемо позначати подібність Джакарда S і T за допомогою SIM (S, T). Важливим класом проблем, з якими звертається схожість Джакарта, є те, що знаходження текстово-схожих документів у великому корпусі, наприклад, в колекції новин від Webor. Ми повинні розуміти, що аспект подібності ми дивимося на схожість на рівні символів, а не на "подібне значення", яка вимагає від нас вивчити слова в документах і їх використання. Ця проблема також цікава, але розглядається іншими методами, про які ми натякали у розділі. Однак, текстова схожість також має важливе значення. Багато з них передбачають пошук дублікатів або близьких дублікатів. По-перше, зауважимо, що тестування того, чи два документи точні дублікати, легко; тільки порівняйте два документи символом за символом, і якщо вони коли-небудь розходяться, вони не єдині. Однак у багатьох додатках документи не ідентичні, однак вони розділяють великі частини свого тексту. Пошук документів з плагіатом перевіряє нашу здатність знаходити схожість тексту. Плагіатор може витягти лише деякі частини документа для своїх. Він може відкрити кілька слів і може змінити порядок, у якому з’являються речення оригіналу. Tа все ж отриманий документ може все ще містити 50% або більше оригіналу. Простий процес порівняння документів плагіат. Найбільш ефективним способом представлення документів як множин, з метою ідентифікації лексично схожих документів є побудова з документа набору коротких рядків, що з’являються в ньому. Якщо ми це зробимо, то документ, що короткі поділки як речення або навіть фрази матимуть багато спільних елементів у своїх наборах, навіть якщо ці пропозиції з’являються в різних порядках у двох документах. У цьому розділі ми вводимо найпростіший і найпоширеніший підхід, обшивку, а також цікаву варіацію. 5 Об’єкт дослідження – система пошуку подібностей в тексті Предмет дослідження – система для пошуку плагіату в тексті, з використанням алгоритму «Джакарда» та оптимізації ітерацій. Мета дослідження: створення веб додатку, що за допомогою бази даних і API, дозволить користувачеві визначити відсоток плагіату в досліджуваному тексті. Результати дослідження: Було розглянуто та проаналізовано всі типи плагіату, алгоритмів, та типів систем для пошуку рівня плагіату в тексті. Перелік використаних літературних джерел: 1. Academic Integrity at the Massachusetts Institute of Technology: A Handbook for Students / MTI. -2015. -40 p. 2. Academic Integrity Tutorial / University of Maryland University College. 2015. 3. Bilis-Zulle L., Frkovis V., Turk T., Azman J., Petroveeki M. Prevalence of Plagiarism Medical Students // Croat Med. J.-2005.-No46 (1).-Р. 126-131. 4. Carroll J., Zetterling C.-M. Guiding students away from plagiarism/ J. Carrol,–[Stockholm ?]: KTH Vetenskap Och Konst Learning Lab, 2009.-84 р. 5. Crews. K.D. Copyright Law for Librarians and Educators : Creative Strategies and Practical Solutions / Chicago : ALA, 2006.-141 р. 6. Gilmore B. Plagiarism: A How-Not-to Guide for Students / Portsmouth, NH: Hienemann, 2009.-104 р.