Проект інформаційної системи двомовного корпусу текстів

Автор: Масланич Ірина Степанівна
Кваліфікаційний рівень: магістр
Спеціальність: Управління ІТ проектами
Інститут: Інститут комп'ютерних наук та інформаційних технологій
Форма навчання: заочна
Навчальний рік: 2020-2021 н.р.
Мова захисту: англійська
Анотація: Масланич І.С, Василюк А.С. (керівник). Проект інформаційної системи двомовного корпусу текстів. Магістерська кваліфікаційна робота. – Національний університет «Львівська політехніка», Львів, 2020. Розширена анотація. На сьогоднішній день лінгвістика уже не покладається лише на вміння і здібності перекладачів, а на технічні засоби, що прискорюють обробку, опрацювання і організацію тестової інформації. Загалом, текстовий корпус - це дуже велика колекція тексту (часто багато мільярдів слів), що створюється реальними користувачами мови та використовується для аналізу того, як використовуються слова, фрази та мова загалом. Він використовується лінгвістами, лексикографами, соціологами, гуманітаріями, експертами з обробки природної мови та у багатьох інших галузях. У першому розділі описане основне завдання і мета корпусу паралельних текстів. Вони полягають у надзвичайній важливості створення такого типу корпусу для студентів філологів і перекладачів. Розуміння підходів і правил функціонування, допомагають впроваджувати нові погляди на автоматичне опрацювання і довготривале зберігання текстової інформації. Використання корпусу також має місце для створення різних мовних баз даних, що використовуються при розробці програмного забезпечення. Серед типів текстових корпусів існують, одномовні корпуси, паралельний корпуси, багатомовні корпуси, порівняльні корпуси, корпуси навчальні, діахронічні, спеціалізовані, мультимедійні, та ін. Таким чином можна визначити тип корпусу залежно від потреби та виду типу даних для відображення. У нашому випадку корпус, який нас цікавить повинен включати дві мови, а отже бути паралейним. Також повиинен включати мультимедійні дані. У даному випадку корпус паралельних текстів вважають лінгвістичною інформаційною системою. Застосування інформаційних систем у різних сферах людської діяльності є надзвичайно актуальним. У другому розділі сказано, що одним з етапів проектування системи корпусу тестів є системний аналіз об’єкта дослідження і побудова дерева цілей. Суть системного аналізу полягає у зборі та інтерпретації фактів виявленні проблем системи і розкладанні її на компоненти. Зазвичай його застосовують з метою вивчення та оцінки системи загалом та її компонентів для ідентифікації об’єктів. Також обгрунтовано використання UML для побудови логічної моделі системи. Після того, як текст був обраний для корпусу, і місце копії було визначено у якомусь зручному форматі, тоді існує кілька рекомендованих кроки для створення функціонального та зрозумілого корпусу. У третьому розділі розкрито тему визначення та аналіз проектних вимог” даної розробки і опрацьовуються такі питання, як мета розроблення, призначення системи ,місце застосування системи; обґрунтування розроблення та впровадження системи. У четвертому розділі порушено розробку плану проектних комунікацій, плану керування якістю, план керування ризиками, план керування ресурсами, результати виконання проекту та документи, процедури завершення проекту, стандарти та практики виконання проекту У п’ятому розділі описано розпрацювання концепції та прототипу мультимодальног корпусу у комбінації з мультимедійним словником. Специфіковано архітектуру,платформи розробки та алгоритми проектованої системи, описано способи відслідковування процесу виконання проекту та змін до вимог, часових та ресурсних параметрів проекту, ризиків тощо. Реалізацію проведено на платформі Pyharm реалізовану систему із залучення об’єкно орієнтованої мови Python. Представлено програмний інтерфейс, який є можна вважати достатньо зрозумілим та інтуїтивним. Шостий розділ присвячений результатам виконання нашого проекту: • Проаналізовано і вивчено підходи до побудови інформаційїної системи загалом, розглянути основні підходи і труднощі при побудові лінгвістичних корпусів. • Побудовано прототип даної інформаційної системи за залученням методів і практик проектного менеджемнту при розробці проекту. • Розроблено практичну систему двомовного корпусу текстів зі залученням об’єктно-орієнтованих мов програмування та мультимедійних файлів • Проведено аналіз труднощів та маожливостей вдосконалнення та розвитку функціоналу даної системи у майбутньому. Отже, в результаті виконання всіх поступових кроків, на етапі реалізації проекту було створено створено такий продукт, що репрезентує інформаційну систему корпусу, який поєднує англійську та українську мови. На додачу до цього включає в себе мультимедійні дані: фото, відео. Важливо, також було виявити, вивчити недоліки сучасних існуючих корпусів та максимально їх уникнути чи виправити. Мета і задачі дослідження. Метою дослідження є створити такий проект, що реалізує інформаційну систему корпусу, який поєднує англійську та українську мови. На додачу до цього включає в себе мультимедійні дані: фото, відео. Важливо, також визначити недоліки сучасних існуючих корпусів та максимально їх уникнути чи виправити. Також проаналізувати складнощі побудову корпусу з залученням двох мов та мультимедійних даних, і знайти способи чи підходи для їх нівелювання чи уникнення. Об’єкт дослідження – процес побудови корпусу, що включає дві мови з найменшимпи затратами з боку технічних засобів, але з найбільш наочним застосування мультимедійних засобів. А також дослідження систем аналогів. Та розгляд можливостей впровадження нових підходів до застосування і побудови. Предмет дослідження - методи та засоби розробки проекту інформаційної системи паралейного корпусу, з можливим залучення мультимедійних даних. Ключові слова: інформаційна система, паралейльний корпус, інтерфейс, проектний менеджмент