Комп'ютерна лінгвістика

Спеціальність: Прикладна лінгвістика
Код дисципліни: 7.035.10.O.002
Кількість кредитів: 6.00
Кафедра: Системи автоматизованого проектування
Лектор: Корпильов Д.В.
Семестр: 1 семестр
Форма навчання: денна
Мета вивчення дисципліни: Мета вивчення навчальної дисципліни та результати навчання У відповідності до кваліфікаційних установок у курсі висвітлюється загальна концепція по використанню комп’ютерних технологій для вирішення наукових і практичних завдань пов’язаних з мовою. Виробляється у студентів уявлення про історичні етапи розвитку комп’ютерної лінгвістики, як науки, її основних напрямків та термінології. Формуються фундаментальні теоретичні знання і практичні навички в галузі лінгвістичної обробки писемних текстів засобами комп’ютерної техніки на різних мовних рівнях.
Завдання: Завдання навчальної дисципліни відповідно до освітньої програми (окрім дисциплін вільного вибору) Вивчення навчальної дисципліни передбачає формування у здобувачів освіти компетентностей: Загальні компетентності: • ІНТ. Здатність розв’язувати складні спеціалізовані задачі та практичні проблеми у галузі лінгвістики, перекладу що передбачає застосування теорій та методів інформаційних технологій і характеризується комплексністю та невизначеністю умов і вимог. • ЗК1. Здатність до абстрактного мислення, аналізу та синтезу. • ЗК2. Здатність застосовувати знання у практичних ситуаціях. • ЗК3. Здатність до пошуку, опрацювання та аналізу інформації з різних джерел . • ЗК4. Уміння виявляти, ставити та вирішувати проблеми. • ЗК8. Здатність генерувати нові ідеї (креативність). • ЗК11. Здатність приймати обґрунтовані рішення. Фахові компетентності: • ФК1. Здатність вільно орієнтуватися в різних лінгвістичних напрямках і школах. • ФК4. Здатність здійснювати науковий аналіз, систематизацію та узагальнення мовного/мовленнєвого матеріалу з урахуванням класичних і новітніх методологічних принципів. • ФК5. Усвідомлення методологічного, організаційного та правового підгрунтя, необхідного для дослідження та/або інноваційних розробок у галузі філології, їх результатів професійній спільноті та захисту інтелектуальної власності та результати досліджень та іновацій. • ФК6. Здатність застосовувати прикладні знання з прикладної лінгвістики для вирішення професійних завдань. • ФК7. Здатність вільно користуватися спеціальною термінологією в обраній галузі філологічних досліджень.
Результати навчання: В результаті вивчення дисципліни, фахівець повинен знати: • основні поняття і робочу термінологію комп’ютерної лінгвістики, що використовуються в теорії і на практиці; • методи лінгвістичних досліджень; • методи та алгоритми автоматичного морфологічного аналізу тексту; • методи та алгоритми автоматичного синтаксичного аналізу тексту; • методи та алгоритми автоматичного семантичного аналізу тексту. Підготовлений фахівець повинен вміти: • працювати з базовими наборами лінгвістичних даних (WordNet, корпуси текстів) для лінгвістичних досліджень ; • застосовувати існуючі набори лінгвістичних даних для здійснення лінгвістичних дослідженнях; • використовувати засоби мови програмування Python для розробки програмних продуктів автоматичної обробки текстів; • застосовувати засоби бібліотеки прикладних програм NLTK для розробки програмних продуктів автоматичної обробки текстів; • здійснювати автоматичну обробку текстів.
Необхідні обов'язкові попередні та супутні навчальні дисципліни: -Лінгвістичний супровід ІТ-проектів -Теорія прийняття рішень -Розробка систем комп’ютерного проектування
Короткий зміст навчальної програми: Мета вивчення навчальної дисципліни У відповідності до кваліфікаційних установок у курсі висвітлюється загальна концепція по використанню комп’ютерних технологій для вирішення наукових і практичних завдань пов’язаних з мовою. Виробляється у студентів уявлення про історичні етапи розвитку комп’ютерної лінгвістики, як науки, її основних напрямків та термінології. Формуються фундаментальні теоретичні знання і практичні навички в галузі лінгвістичної обробки писемних текстів засобами комп’ютерної техніки на різних мовних рівнях.
Опис: ІХ семестр Розділ 1. Вступ. Тема1. Комп’ютерна лінгвістика (КЛ) як галузь прикладної лінгвістики. Питання: Визначення терміну КЛ. Історія розвитку КЛ. Основні напрямки КЛ. Коротка характеристика основних напрямків КЛ. Об’єкт дослідження КЛ. Предмет дослідження КЛ. Зв’язок КЛ з іншими лінгвістичними та нелінгвістичними дисциплінами. Тема2. Поняття лінгвістичної моделі. Питання:Етапи розробки лінгвістичної моделі. Вимоги до побудови лінгвістичних моделей. Класифікація лінгвістичних моделей. Формалізми, які використовуються при побудові лінгвістичних моделей. Поняття лінгвістичної теорії. Рівні абстракції описів в КЛ. Загальна схема опрацювання текстів природною мовою. Розділ 2. Автоматичний морфологічний аналіз. Тема3. Регулярні вирази та скінченні автомати. Питання:Поняття регулярного виразу. Приклади регулярних виразів. Основні оператори регулярних виразів. Поняття скінченного автомата. Недетермінований скінченний автомат. Регулярні мови та скінченні автомати. Тема4. Обробка окремих слів та скінченні перетворювачі. Питання:Формальний підхід до морфології природної мови. Морфологічний аналіз з допомогою скінченних автоматів. Поняття скінченного перетворювача. Морфологічний аналіз з допомогою скінченних перетворювачів. Скінченні перетворювачі та орфографічні правила. Поділ тексту на окремі слова та речення. Тема5. Автоматичний морфологічний аналіз. Питання:Основні методи автоматичного морфологічного аналізу. Методи на основі правил. Методи на основі ймовірностей. Методи на основі трансформацій. Тема6. Методи зняття омонімії. Питання:Прихована модель Маркова та модель максимальної ентропії. Алгоритм Вітербі. Розділ 3. Автоматичний синтаксичний аналіз. Тема7. Формальні граматики. Питання:Контекстно-вільна формальна граматика. Правила контекстно-вільної граматики для англійської мови. Treebank’s. Еквівалентність та нормальна форма граматик. Граматики залежностей. Тема8. Автоматичний синтаксичний аналіз. Питання: Стратегії автоматичного синтаксичного аналізу. Методи динамічного програмування для здійснення автоматичного синтаксичного аналізу. Алгоритм CKY. Алгоритм Earley. Алгоритм Сhart. Тема9. Імовірнісні методи автоматичного синтаксичного аналізу. Питання:Імовірнісна контекстно-вільна граматика. Алгоритм CKY для імовірнісної контекстно-вільної граматики. Проблеми імовірнісних контекстно-вільних граматик. Тема10. Структури властивостей та уніфікації. Питання: Структури властивостей. Уніфікація структур властивостей. Використання структур властивостей у формальних граматиках. Автоматичний синтаксичний аналіз на основі уніфікаційних граматик. Проблеми автоматичного синтаксичного аналізу. Розділ 4. Автоматичний семантичний аналіз та прагматика тексту. Тема11. Методи представлення значення. Питання: Поняття логіки першого порядку. Представлення подій і станів. Тема12. Обчислювальна семантика. Питання: Застосування уніфікацій для семантичного аналізу. Інтеграція семантики в Earley алгоритм. Обробка ідіом і компаундів. Тема13. Лексична семантика. Питання: Значення слів. Зв’язки між значеннями слів. WorldNet, як база даних лексичних взаємозв’язків. Використання лексичних баз даних для встановлення учасників подій. Тема 14. Обчислювальна лексична семантика. Питання: Зняття неоднозначностей значення слів. Визначення подібності слів. Маркування семантичних ролей. Тема15. Автоматичний аналіз дискурсу. Питання: Сегментація дискурсу. Встановлення взаємозв’язаних текстів. Анафори. Алгоритми визначення анафор в тексті.
Методи та критерії оцінювання: • поточний контроль (50%): письмові звіти з практичних робіт, усне опитування; • підсумковий контроль (50%): диференційований залік.
Критерії оцінювання результатів навчання: 100–88 балів – («відмінно») виставляється за високий рівень знань (допускаються деякі неточності) навчального матеріалу компонента, що міститься в основних і додаткових рекомендованих літературних джерелах, вміння аналізувати явища, які вивчаються, у їхньому взаємозв’язку і роз витку, чітко, лаконічно, логічно, послідовно відповідати на поставлені запитання, вміння застосовувати теоретичні положення під час розв’язання практичних задач; 87–71 бал – («добре») виставляється за загалом правильне розуміння навчального матеріалу компонента, включаючи розрахунки , аргументовані відповіді на поставлені запитання, які, однак, містять певні (неістотні) недоліки, за вміння застосовувати теоретичні положення під час розв’язання практичних задач; 70 – 50 балів – («задовільно») виставляється за слабкі знання навчального матеріалу компонента, неточні або мало аргументовані відповіді, з порушенням послідовності викладення, за слабке застосування теоретичних положень під час розв’язання практичних задач; 49–26 балів – («не атестований» з можливістю повторного складання семестрового контролю) виставляється за незнання значної частини навчального матеріалу компонента, істотні помилки у відповідях на запитання, невміння застосувати теоретичні положення під час розв’язання практичних задач; 25–00 балів – («незадовільно» з обов’язковим повторним вивченням) виставляється за незнання значної частини навчального матеріалу компонента, істотні помилки у відповідях на запитання, невміння орієнтуватися під час розв’язання практичних задач, незнання основних фундаментальних положень.
Порядок та критерії виставляння балів та оцінок: 100–88 балів – («відмінно») виставляється за високий рівень знань (допускаються деякі неточності) навчального матеріалу компонента, що міститься в основних і додаткових рекомендованих літературних джерелах, вміння аналізувати явища, які вивчаються, у їхньому взаємозв’язку і роз витку, чітко, лаконічно, логічно, послідовно відповідати на поставлені запитання, вміння застосовувати теоретичні положення під час розв’язання практичних задач; 87–71 бал – («добре») виставляється за загалом правильне розуміння навчального матеріалу компонента, включаючи розрахунки , аргументовані відповіді на поставлені запитання, які, однак, містять певні (неістотні) недоліки, за вміння застосовувати теоретичні положення під час розв’язання практичних задач; 70 – 50 балів – («задовільно») виставляється за слабкі знання навчального матеріалу компонента, неточні або мало аргументовані відповіді, з порушенням послідовності викладення, за слабке застосування теоретичних положень під час розв’язання практичних задач; 49–26 балів – («не атестований» з можливістю повторного складання семестрового контролю) виставляється за незнання значної частини навчального матеріалу компонента, істотні помилки у відповідях на запитання, невміння застосувати теоретичні положення під час розв’язання практичних задач; 25–00 балів – («незадовільно» з обов’язковим повторним вивченням) виставляється за незнання значної частини навчального матеріалу компонента, істотні помилки у відповідях на запитання, невміння орієнтуватися під час розв’язання практичних задач, незнання основних фундаментальних положень.
Рекомендована література: 1. Daniel Jurafsky, James H. Martin Speech and Language Processing: an Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition - Second Edition Prentice Hall, 2008 -988. 2. Карпіловська Є.А. Вступ до комп’ютерної лінгвістики – Донецьк, 2003. – 184с. 3. Волошин В.Г. Комп’ютерна лінгвістика: Навчальний посібник.- Суми, 2004.- 382с. 4. The handbook of applied linguistics / edited by Alan Davies and Catherine Elder. 2004 – 886. 5. Арнольд И.В. Основы научных исследований в лингвистике: Учеб. пособие. — М.: Высш. шк., 1991. — 140 с. 8.2 Література до лабораторних занять. 1. Steven Bird, Ewan Klein, Edward Loper Natural Language Processing with Python Analyzing Text with the Natural Language Toolkit. O'Reilly Media, 2009 - 502 2. Г. Россум, Ф.Л.Дж. Дрейк, Д.С. Откидач, М. Задка, М. Левис, С.Монтаро, Э.С.Реймонд, А.М.Кучлинг, М.-А.Лембург, К.-П.Йи, Д.Ксиллаг, Х.Г.Петрилли, Б.А.Варсав, Дж.К.Ахлстром, Дж.Рокинд, Н.Шеменон, С.Мулендер. Язык программирования Python./ 2001 – 452c. 3. David Mertz Text Processing in Python Addison WesleyBiber, 2003 - 544.
Уніфікований додаток: Національний університет «Львівська політехніка» забезпечує реалізацію права осіб з інвалідністю на здобуття вищої освіти. Інклюзивні освітні послуги надає Служба доступності до можливостей навчання «Без обмежень», метою діяльності якої є забезпечення постійного індивідуального супроводу навчального процесу студентів з інвалідністю та хронічними захворюваннями. Важливим інструментом імплементації інклюзивної освітньої політики в Університеті є Програма підвищення кваліфікації науково-педагогічних працівників та навчально-допоміжного персоналу у сфері соціальної інклюзії та інклюзивної освіти. Звертатися за адресою: вул. Карпінського, 2/4, І-й н.к., кімн. 112 E-mail: nolimits@lpnu.ua Websites: https://lpnu.ua/nolimits https://lpnu.ua/integration
Академічна доброчесність: Політика щодо академічної доброчесності учасників освітнього процесу формується на основі дотримання принципів академічної доброчесності з урахуванням норм «Положення про академічну доброчесність у Національному університеті «Львівська політехніка» (затверджене вченою радою університету від 20.06.2017 р., протокол № 35).