Комп'ютерна лінгвістика
Спеціальність: Прикладна лінгвістика
Код дисципліни: 7.035.10.O.002
Кількість кредитів: 6.00
Кафедра: Системи автоматизованого проектування
Лектор: Корпильов Д.В.
Семестр: 1 семестр
Форма навчання: денна
Завдання: Завдання навчальної дисципліни відповідно до освітньої програми (окрім дисциплін вільного вибору)
Вивчення навчальної дисципліни передбачає формування у здобувачів освіти компетентностей:
Загальні компетентності:
• ІНТ. Здатність розв’язувати складні спеціалізовані задачі та практичні проблеми у галузі лінгвістики, перекладу що передбачає застосування теорій та методів інформаційних технологій і характеризується комплексністю та невизначеністю умов і вимог.
• ЗК1. Здатність до абстрактного мислення, аналізу та синтезу.
• ЗК2. Здатність застосовувати знання у практичних ситуаціях.
• ЗК3. Здатність до пошуку, опрацювання та аналізу інформації з різних джерел .
• ЗК4. Уміння виявляти, ставити та вирішувати проблеми.
• ЗК8. Здатність генерувати нові ідеї (креативність).
• ЗК11. Здатність приймати обґрунтовані рішення.
Фахові компетентності:
• ФК1. Здатність вільно орієнтуватися в різних лінгвістичних напрямках і школах.
• ФК4. Здатність здійснювати науковий аналіз, систематизацію та узагальнення мовного/мовленнєвого матеріалу з урахуванням класичних і новітніх методологічних принципів.
• ФК5. Усвідомлення методологічного, організаційного та правового підгрунтя, необхідного для дослідження та/або інноваційних розробок у галузі філології, їх результатів професійній спільноті та захисту інтелектуальної власності та результати досліджень та іновацій.
• ФК6. Здатність застосовувати прикладні знання з прикладної лінгвістики для вирішення професійних завдань.
• ФК7. Здатність вільно користуватися спеціальною термінологією в обраній галузі філологічних досліджень.
Результати навчання: В результаті вивчення дисципліни, фахівець повинен знати:
• основні поняття і робочу термінологію комп’ютерної лінгвістики, що використовуються в теорії і на практиці;
• методи лінгвістичних досліджень;
• методи та алгоритми автоматичного морфологічного аналізу тексту;
• методи та алгоритми автоматичного синтаксичного аналізу тексту;
• методи та алгоритми автоматичного семантичного аналізу тексту.
Підготовлений фахівець повинен вміти:
• працювати з базовими наборами лінгвістичних даних (WordNet, корпуси текстів) для лінгвістичних досліджень ;
• застосовувати існуючі набори лінгвістичних даних для здійснення лінгвістичних дослідженнях;
• використовувати засоби мови програмування Python для розробки програмних продуктів автоматичної обробки текстів;
• застосовувати засоби бібліотеки прикладних програм NLTK для розробки програмних продуктів автоматичної обробки текстів;
• здійснювати автоматичну обробку текстів.
Необхідні обов'язкові попередні та супутні навчальні дисципліни: -Лінгвістичний супровід ІТ-проектів
-Теорія прийняття рішень
-Розробка систем комп’ютерного проектування
Короткий зміст навчальної програми: Мета вивчення навчальної дисципліни
У відповідності до кваліфікаційних установок у курсі висвітлюється загальна концепція по використанню комп’ютерних технологій для вирішення наукових і практичних завдань пов’язаних з мовою. Виробляється у студентів уявлення про історичні етапи розвитку комп’ютерної лінгвістики, як науки, її основних напрямків та термінології. Формуються фундаментальні теоретичні знання і практичні навички в галузі лінгвістичної обробки писемних текстів засобами комп’ютерної техніки на різних мовних рівнях.
Опис: ІХ семестр
Розділ 1. Вступ.
Тема1. Комп’ютерна лінгвістика (КЛ) як галузь прикладної лінгвістики. Питання: Визначення терміну КЛ. Історія розвитку КЛ. Основні напрямки КЛ. Коротка характеристика основних напрямків КЛ. Об’єкт дослідження КЛ. Предмет дослідження КЛ. Зв’язок КЛ з іншими лінгвістичними та нелінгвістичними дисциплінами.
Тема2. Поняття лінгвістичної моделі. Питання:Етапи розробки лінгвістичної моделі. Вимоги до побудови лінгвістичних моделей. Класифікація лінгвістичних моделей. Формалізми, які використовуються при побудові лінгвістичних моделей. Поняття лінгвістичної теорії. Рівні абстракції описів в КЛ. Загальна схема опрацювання текстів природною мовою.
Розділ 2. Автоматичний морфологічний аналіз.
Тема3. Регулярні вирази та скінченні автомати. Питання:Поняття регулярного виразу. Приклади регулярних виразів. Основні оператори регулярних виразів. Поняття скінченного автомата. Недетермінований скінченний автомат. Регулярні мови та скінченні автомати.
Тема4. Обробка окремих слів та скінченні перетворювачі. Питання:Формальний підхід до морфології природної мови. Морфологічний аналіз з допомогою скінченних автоматів. Поняття скінченного перетворювача. Морфологічний аналіз з допомогою скінченних перетворювачів. Скінченні перетворювачі та орфографічні правила. Поділ тексту на окремі слова та речення.
Тема5. Автоматичний морфологічний аналіз. Питання:Основні методи автоматичного морфологічного аналізу. Методи на основі правил. Методи на основі ймовірностей. Методи на основі трансформацій.
Тема6. Методи зняття омонімії. Питання:Прихована модель Маркова та модель максимальної ентропії. Алгоритм Вітербі.
Розділ 3. Автоматичний синтаксичний аналіз.
Тема7. Формальні граматики. Питання:Контекстно-вільна формальна граматика. Правила контекстно-вільної граматики для англійської мови. Treebank’s. Еквівалентність та нормальна форма граматик. Граматики залежностей.
Тема8. Автоматичний синтаксичний аналіз. Питання: Стратегії автоматичного синтаксичного аналізу. Методи динамічного програмування для здійснення автоматичного синтаксичного аналізу. Алгоритм CKY. Алгоритм Earley. Алгоритм Сhart.
Тема9. Імовірнісні методи автоматичного синтаксичного аналізу. Питання:Імовірнісна контекстно-вільна граматика. Алгоритм CKY для імовірнісної контекстно-вільної граматики. Проблеми імовірнісних контекстно-вільних граматик.
Тема10. Структури властивостей та уніфікації. Питання: Структури властивостей. Уніфікація структур властивостей. Використання структур властивостей у формальних граматиках. Автоматичний синтаксичний аналіз на основі уніфікаційних граматик. Проблеми автоматичного синтаксичного аналізу.
Розділ 4. Автоматичний семантичний аналіз та прагматика тексту.
Тема11. Методи представлення значення. Питання: Поняття логіки першого порядку. Представлення подій і станів.
Тема12. Обчислювальна семантика. Питання: Застосування уніфікацій для семантичного аналізу. Інтеграція семантики в Earley алгоритм. Обробка ідіом і компаундів.
Тема13. Лексична семантика. Питання: Значення слів. Зв’язки між значеннями слів. WorldNet, як база даних лексичних взаємозв’язків. Використання лексичних баз даних для встановлення учасників подій.
Тема 14. Обчислювальна лексична семантика. Питання: Зняття неоднозначностей значення слів. Визначення подібності слів. Маркування семантичних ролей.
Тема15. Автоматичний аналіз дискурсу. Питання: Сегментація дискурсу. Встановлення взаємозв’язаних текстів. Анафори. Алгоритми визначення анафор в тексті.
Методи та критерії оцінювання: • поточний контроль (50%): письмові звіти з практичних робіт, усне опитування;
• підсумковий контроль (50%): диференційований залік.
Критерії оцінювання результатів навчання: 100–88 балів – («відмінно») виставляється за високий рівень знань (допускаються деякі неточності) навчального матеріалу компонента, що міститься в основних і додаткових рекомендованих літературних джерелах, вміння аналізувати явища, які вивчаються, у їхньому взаємозв’язку і роз витку, чітко, лаконічно, логічно, послідовно відповідати на поставлені запитання, вміння застосовувати теоретичні положення під час розв’язання практичних задач; 87–71 бал – («добре») виставляється за загалом правильне розуміння навчального матеріалу компонента, включаючи розрахунки , аргументовані відповіді на поставлені запитання, які, однак, містять певні (неістотні) недоліки, за вміння застосовувати теоретичні положення під час розв’язання практичних задач; 70 – 50 балів – («задовільно») виставляється за слабкі знання навчального матеріалу компонента, неточні або мало аргументовані відповіді, з порушенням послідовності викладення, за слабке застосування теоретичних положень під час розв’язання практичних задач; 49–26 балів – («не атестований» з можливістю повторного складання семестрового контролю) виставляється за незнання значної частини навчального матеріалу компонента, істотні помилки у відповідях на запитання, невміння застосувати теоретичні положення під час розв’язання практичних задач; 25–00 балів – («незадовільно» з обов’язковим повторним вивченням) виставляється за незнання значної частини навчального матеріалу компонента, істотні помилки у відповідях на запитання, невміння орієнтуватися під час розв’язання практичних задач, незнання основних фундаментальних положень.
Порядок та критерії виставляння балів та оцінок: 100-88 балів - атестований з оцінкою «відмінно» - Високий рівень: здобувач освіти демонструє поглиблене володіння поняттєвим та категорійним апаратом навчальної дисципліни, системні знання, вміння і навички їх практичного застосування. Освоєні знання, вміння і навички забезпечують можливість самостійного формулювання цілей та організації навчальної діяльності, пошуку та знаходження рішень у нестандартних, нетипових навчальних і професійних ситуаціях. Здобувач освіти демонструє здатність робити узагальнення на основі критичного аналізу фактичного матеріалу, ідей, теорій і концепцій, формулювати на їх основі висновки. Його діяльності ґрунтується на зацікавленості та мотивації до саморозвитку, неперервного професійного розвитку, самостійної науково-дослідної діяльності, що реалізується за підтримки та під керівництвом викладача. 87-71 балів - атестований з оцінкою «добре» - Достатній рівень: передбачає володіння поняттєвим та категорійним апаратом навчальної дисципліни на підвищеному рівні, усвідомлене використання знань, умінь і навичок з метою розкриття суті питання. Володіння частково-структурованим комплексом знань забезпечує можливість їх застосування у знайомих ситуаціях освітнього та професійного характеру. Усвідомлюючи специфіку задач та навчальних ситуацій, здобувач освіти демонструє здатність здійснювати пошук та вибір їх розв’язання за поданим зразком, аргументувати застосування певного способу розв’язання задачі. Його діяльності ґрунтується на зацікавленості та мотивації до саморозвитку, неперервного професійного розвитку. 70-50 балів - атестований з оцінкою «задовільно» - Задовільний рівень: окреслює володіння поняттєвим та категорійним апаратом навчальної дисципліни на середньому рівні, часткове усвідомлення навчальних і професійних задач, завдань і ситуацій, знання про способи розв’язання типових задач і завдань. Здобувач освіти демонструє середній рівень умінь і навичок застосування знань на практиці, а розв’язання задач потребує допомоги, опори на зразок. В основу навчальної діяльності покладено ситуативність та евристичність, домінування мотивів обов’язку, неусвідомлене застосування можливостей для саморозвитку. 49-00 балів - атестований з оцінкою «незадовільно» - Незадовільний рівень: свідчить про елементарне володіння поняттєвим та категорійним апаратом навчальної дисципліни, загальне уявлення про зміст навчального матеріалу, часткове використання знань, умінь і навичок. В основу навчальної діяльності покладено ситуативно-прагматичний інтерес.
Рекомендована література: 1. Daniel Jurafsky, James H. Martin Speech and Language Processing: an Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition - Second Edition Prentice Hall, 2008 -988.
2. Карпіловська Є.А. Вступ до комп’ютерної лінгвістики – Донецьк, 2003. – 184с.
3. Волошин В.Г. Комп’ютерна лінгвістика: Навчальний посібник.- Суми, 2004.- 382с.
4. The handbook of applied linguistics / edited by Alan Davies and Catherine Elder. 2004 – 886.
5. Арнольд И.В. Основы научных исследований в лингвистике: Учеб. пособие. — М.: Высш. шк., 1991. — 140 с.
8.2 Література до лабораторних занять.
1. Steven Bird, Ewan Klein, Edward Loper Natural Language Processing with Python Analyzing Text with the Natural Language Toolkit. O'Reilly Media, 2009 - 502
2. Г. Россум, Ф.Л.Дж. Дрейк, Д.С. Откидач, М. Задка, М. Левис, С.Монтаро, Э.С.Реймонд, А.М.Кучлинг, М.-А.Лембург, К.-П.Йи, Д.Ксиллаг, Х.Г.Петрилли, Б.А.Варсав, Дж.К.Ахлстром, Дж.Рокинд, Н.Шеменон, С.Мулендер. Язык программирования Python./ 2001 – 452c.
3. David Mertz Text Processing in Python Addison WesleyBiber, 2003 - 544.
Уніфікований додаток: Національний університет «Львівська політехніка» забезпечує реалізацію права осіб з інвалідністю на здобуття вищої освіти. Інклюзивні освітні послуги надає Служба доступності до можливостей навчання «Без обмежень», метою діяльності якої є забезпечення постійного індивідуального супроводу навчального процесу студентів з інвалідністю та хронічними захворюваннями. Важливим інструментом імплементації інклюзивної освітньої політики в Університеті є Програма підвищення кваліфікації науково-педагогічних працівників та навчально-допоміжного персоналу у сфері соціальної інклюзії та інклюзивної освіти. Звертатися за адресою:
вул. Карпінського, 2/4, І-й н.к., кімн. 112
E-mail: nolimits@lpnu.ua
Websites: https://lpnu.ua/nolimits https://lpnu.ua/integration
Академічна доброчесність: Політика щодо академічної доброчесності учасників освітнього процесу формується на основі дотримання принципів академічної доброчесності з урахуванням норм «Положення про академічну доброчесність у Національному університеті «Львівська політехніка» (затверджене вченою радою університету від 20.06.2017 р., протокол № 35).