Комп'ютерна лінгвістика
Спеціальність: Прикладна лінгвістика
Код дисципліни: 7.035.10.O.002
Кількість кредитів: 6.00
Кафедра: Системи автоматизованого проектування
Лектор: Корпильов Д.В.
Семестр: 1 семестр
Форма навчання: денна
Завдання: Завдання навчальної дисципліни відповідно до освітньої програми (окрім дисциплін вільного вибору)
Вивчення навчальної дисципліни передбачає формування у здобувачів освіти компетентностей:
Загальні компетентності:
• ІНТ. Здатність розв’язувати складні спеціалізовані задачі та практичні проблеми у галузі лінгвістики, перекладу що передбачає застосування теорій та методів інформаційних технологій і характеризується комплексністю та невизначеністю умов і вимог.
• ЗК1. Здатність до абстрактного мислення, аналізу та синтезу.
• ЗК2. Здатність застосовувати знання у практичних ситуаціях.
• ЗК3. Здатність до пошуку, опрацювання та аналізу інформації з різних джерел .
• ЗК4. Уміння виявляти, ставити та вирішувати проблеми.
• ЗК8. Здатність генерувати нові ідеї (креативність).
• ЗК11. Здатність приймати обґрунтовані рішення.
Фахові компетентності:
• ФК1. Здатність вільно орієнтуватися в різних лінгвістичних напрямках і школах.
• ФК4. Здатність здійснювати науковий аналіз, систематизацію та узагальнення мовного/мовленнєвого матеріалу з урахуванням класичних і новітніх методологічних принципів.
• ФК5. Усвідомлення методологічного, організаційного та правового підгрунтя, необхідного для дослідження та/або інноваційних розробок у галузі філології, їх результатів професійній спільноті та захисту інтелектуальної власності та результати досліджень та іновацій.
• ФК6. Здатність застосовувати прикладні знання з прикладної лінгвістики для вирішення професійних завдань.
• ФК7. Здатність вільно користуватися спеціальною термінологією в обраній галузі філологічних досліджень.
Результати навчання: В результаті вивчення дисципліни, фахівець повинен знати:
• основні поняття і робочу термінологію комп’ютерної лінгвістики, що використовуються в теорії і на практиці;
• методи лінгвістичних досліджень;
• методи та алгоритми автоматичного морфологічного аналізу тексту;
• методи та алгоритми автоматичного синтаксичного аналізу тексту;
• методи та алгоритми автоматичного семантичного аналізу тексту.
Підготовлений фахівець повинен вміти:
• працювати з базовими наборами лінгвістичних даних (WordNet, корпуси текстів) для лінгвістичних досліджень ;
• застосовувати існуючі набори лінгвістичних даних для здійснення лінгвістичних дослідженнях;
• використовувати засоби мови програмування Python для розробки програмних продуктів автоматичної обробки текстів;
• застосовувати засоби бібліотеки прикладних програм NLTK для розробки програмних продуктів автоматичної обробки текстів;
• здійснювати автоматичну обробку текстів.
Необхідні обов'язкові попередні та супутні навчальні дисципліни: -Лінгвістичний супровід ІТ-проектів
-Теорія прийняття рішень
-Розробка систем комп’ютерного проектування
Короткий зміст навчальної програми: Мета вивчення навчальної дисципліни
У відповідності до кваліфікаційних установок у курсі висвітлюється загальна концепція по використанню комп’ютерних технологій для вирішення наукових і практичних завдань пов’язаних з мовою. Виробляється у студентів уявлення про історичні етапи розвитку комп’ютерної лінгвістики, як науки, її основних напрямків та термінології. Формуються фундаментальні теоретичні знання і практичні навички в галузі лінгвістичної обробки писемних текстів засобами комп’ютерної техніки на різних мовних рівнях.
Опис: ІХ семестр
Розділ 1. Вступ.
Тема1. Комп’ютерна лінгвістика (КЛ) як галузь прикладної лінгвістики. Питання: Визначення терміну КЛ. Історія розвитку КЛ. Основні напрямки КЛ. Коротка характеристика основних напрямків КЛ. Об’єкт дослідження КЛ. Предмет дослідження КЛ. Зв’язок КЛ з іншими лінгвістичними та нелінгвістичними дисциплінами.
Тема2. Поняття лінгвістичної моделі. Питання:Етапи розробки лінгвістичної моделі. Вимоги до побудови лінгвістичних моделей. Класифікація лінгвістичних моделей. Формалізми, які використовуються при побудові лінгвістичних моделей. Поняття лінгвістичної теорії. Рівні абстракції описів в КЛ. Загальна схема опрацювання текстів природною мовою.
Розділ 2. Автоматичний морфологічний аналіз.
Тема3. Регулярні вирази та скінченні автомати. Питання:Поняття регулярного виразу. Приклади регулярних виразів. Основні оператори регулярних виразів. Поняття скінченного автомата. Недетермінований скінченний автомат. Регулярні мови та скінченні автомати.
Тема4. Обробка окремих слів та скінченні перетворювачі. Питання:Формальний підхід до морфології природної мови. Морфологічний аналіз з допомогою скінченних автоматів. Поняття скінченного перетворювача. Морфологічний аналіз з допомогою скінченних перетворювачів. Скінченні перетворювачі та орфографічні правила. Поділ тексту на окремі слова та речення.
Тема5. Автоматичний морфологічний аналіз. Питання:Основні методи автоматичного морфологічного аналізу. Методи на основі правил. Методи на основі ймовірностей. Методи на основі трансформацій.
Тема6. Методи зняття омонімії. Питання:Прихована модель Маркова та модель максимальної ентропії. Алгоритм Вітербі.
Розділ 3. Автоматичний синтаксичний аналіз.
Тема7. Формальні граматики. Питання:Контекстно-вільна формальна граматика. Правила контекстно-вільної граматики для англійської мови. Treebank’s. Еквівалентність та нормальна форма граматик. Граматики залежностей.
Тема8. Автоматичний синтаксичний аналіз. Питання: Стратегії автоматичного синтаксичного аналізу. Методи динамічного програмування для здійснення автоматичного синтаксичного аналізу. Алгоритм CKY. Алгоритм Earley. Алгоритм Сhart.
Тема9. Імовірнісні методи автоматичного синтаксичного аналізу. Питання:Імовірнісна контекстно-вільна граматика. Алгоритм CKY для імовірнісної контекстно-вільної граматики. Проблеми імовірнісних контекстно-вільних граматик.
Тема10. Структури властивостей та уніфікації. Питання: Структури властивостей. Уніфікація структур властивостей. Використання структур властивостей у формальних граматиках. Автоматичний синтаксичний аналіз на основі уніфікаційних граматик. Проблеми автоматичного синтаксичного аналізу.
Розділ 4. Автоматичний семантичний аналіз та прагматика тексту.
Тема11. Методи представлення значення. Питання: Поняття логіки першого порядку. Представлення подій і станів.
Тема12. Обчислювальна семантика. Питання: Застосування уніфікацій для семантичного аналізу. Інтеграція семантики в Earley алгоритм. Обробка ідіом і компаундів.
Тема13. Лексична семантика. Питання: Значення слів. Зв’язки між значеннями слів. WorldNet, як база даних лексичних взаємозв’язків. Використання лексичних баз даних для встановлення учасників подій.
Тема 14. Обчислювальна лексична семантика. Питання: Зняття неоднозначностей значення слів. Визначення подібності слів. Маркування семантичних ролей.
Тема15. Автоматичний аналіз дискурсу. Питання: Сегментація дискурсу. Встановлення взаємозв’язаних текстів. Анафори. Алгоритми визначення анафор в тексті.
Методи та критерії оцінювання: • поточний контроль (50%): письмові звіти з практичних робіт, усне опитування;
• підсумковий контроль (50%): диференційований залік.
Критерії оцінювання результатів навчання: 100–88 балів – («відмінно») виставляється за високий рівень знань (допускаються деякі неточності) навчального матеріалу компонента, що міститься в основних і додаткових рекомендованих літературних джерелах, вміння аналізувати явища, які вивчаються, у їхньому взаємозв’язку і роз витку, чітко, лаконічно, логічно, послідовно відповідати на поставлені запитання, вміння застосовувати теоретичні положення під час розв’язання практичних задач; 87–71 бал – («добре») виставляється за загалом правильне розуміння навчального матеріалу компонента, включаючи розрахунки , аргументовані відповіді на поставлені запитання, які, однак, містять певні (неістотні) недоліки, за вміння застосовувати теоретичні положення під час розв’язання практичних задач; 70 – 50 балів – («задовільно») виставляється за слабкі знання навчального матеріалу компонента, неточні або мало аргументовані відповіді, з порушенням послідовності викладення, за слабке застосування теоретичних положень під час розв’язання практичних задач; 49–26 балів – («не атестований» з можливістю повторного складання семестрового контролю) виставляється за незнання значної частини навчального матеріалу компонента, істотні помилки у відповідях на запитання, невміння застосувати теоретичні положення під час розв’язання практичних задач; 25–00 балів – («незадовільно» з обов’язковим повторним вивченням) виставляється за незнання значної частини навчального матеріалу компонента, істотні помилки у відповідях на запитання, невміння орієнтуватися під час розв’язання практичних задач, незнання основних фундаментальних положень.
Порядок та критерії виставляння балів та оцінок: 100–88 балів – («відмінно») виставляється за високий рівень знань (допускаються деякі неточності) навчального матеріалу компонента, що міститься в основних і додаткових рекомендованих літературних джерелах, вміння аналізувати явища, які вивчаються, у їхньому взаємозв’язку і роз витку, чітко, лаконічно, логічно, послідовно відповідати на поставлені запитання, вміння застосовувати теоретичні положення під час розв’язання практичних задач; 87–71 бал – («добре») виставляється за загалом правильне розуміння навчального матеріалу компонента, включаючи розрахунки , аргументовані відповіді на поставлені запитання, які, однак, містять певні (неістотні) недоліки, за вміння застосовувати теоретичні положення під час розв’язання практичних задач; 70 – 50 балів – («задовільно») виставляється за слабкі знання навчального матеріалу компонента, неточні або мало аргументовані відповіді, з порушенням послідовності викладення, за слабке застосування теоретичних положень під час розв’язання практичних задач; 49–26 балів – («не атестований» з можливістю повторного складання семестрового контролю) виставляється за незнання значної частини навчального матеріалу компонента, істотні помилки у відповідях на запитання, невміння застосувати теоретичні положення під час розв’язання практичних задач; 25–00 балів – («незадовільно» з обов’язковим повторним вивченням) виставляється за незнання значної частини навчального матеріалу компонента, істотні помилки у відповідях на запитання, невміння орієнтуватися під час розв’язання практичних задач, незнання основних фундаментальних положень.
Рекомендована література: 1. Daniel Jurafsky, James H. Martin Speech and Language Processing: an Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition - Second Edition Prentice Hall, 2008 -988.
2. Карпіловська Є.А. Вступ до комп’ютерної лінгвістики – Донецьк, 2003. – 184с.
3. Волошин В.Г. Комп’ютерна лінгвістика: Навчальний посібник.- Суми, 2004.- 382с.
4. The handbook of applied linguistics / edited by Alan Davies and Catherine Elder. 2004 – 886.
5. Арнольд И.В. Основы научных исследований в лингвистике: Учеб. пособие. — М.: Высш. шк., 1991. — 140 с.
8.2 Література до лабораторних занять.
1. Steven Bird, Ewan Klein, Edward Loper Natural Language Processing with Python Analyzing Text with the Natural Language Toolkit. O'Reilly Media, 2009 - 502
2. Г. Россум, Ф.Л.Дж. Дрейк, Д.С. Откидач, М. Задка, М. Левис, С.Монтаро, Э.С.Реймонд, А.М.Кучлинг, М.-А.Лембург, К.-П.Йи, Д.Ксиллаг, Х.Г.Петрилли, Б.А.Варсав, Дж.К.Ахлстром, Дж.Рокинд, Н.Шеменон, С.Мулендер. Язык программирования Python./ 2001 – 452c.
3. David Mertz Text Processing in Python Addison WesleyBiber, 2003 - 544.
Уніфікований додаток: Національний університет «Львівська політехніка» забезпечує реалізацію права осіб з інвалідністю на здобуття вищої освіти. Інклюзивні освітні послуги надає Служба доступності до можливостей навчання «Без обмежень», метою діяльності якої є забезпечення постійного індивідуального супроводу навчального процесу студентів з інвалідністю та хронічними захворюваннями. Важливим інструментом імплементації інклюзивної освітньої політики в Університеті є Програма підвищення кваліфікації науково-педагогічних працівників та навчально-допоміжного персоналу у сфері соціальної інклюзії та інклюзивної освіти. Звертатися за адресою:
вул. Карпінського, 2/4, І-й н.к., кімн. 112
E-mail: nolimits@lpnu.ua
Websites: https://lpnu.ua/nolimits https://lpnu.ua/integration
Академічна доброчесність: Політика щодо академічної доброчесності учасників освітнього процесу формується на основі дотримання принципів академічної доброчесності з урахуванням норм «Положення про академічну доброчесність у Національному університеті «Львівська політехніка» (затверджене вченою радою університету від 20.06.2017 р., протокол № 35).