Машинне навчання

Спеціальність: Системний аналіз
Код дисципліни: 6.124.00.O.035
Кількість кредитів: 4.00
Кафедра: Інформаційні системи та мережі
Лектор: д.т.н., проф. Литвин Василь Володимирович
Семестр: 6 семестр
Форма навчання: денна
Мета вивчення дисципліни: Мета дисципліни – вивчення методів та засобів машинного навчання, зокрема – застосування генетичних алгоритмів, методів класифікації та регресії, дерев рішень, методів кластеризації, задач пошуку в просторі гіпотез, нейронних мереж, байесових мереж, мультиагентних систем, – сучасних технологій опрацювання знань в інтелектуальних інформаційних системах.
Завдання: Вивчення навчальної дисципліни передбачає формування у здобувачів освіти компетентностей: загальні компетентності: К01. Здатність до абстрактного мислення, аналізу та синтезу. К02. Здатність застосовувати знання у практичних ситуаціях. К04. Знання та розуміння предметної області та розуміння професійної діяльності. К13. Здатність працювати в міжнародному контексті. фахові компетентності: К17. Здатність використовувати системний аналіз як сучасну міждисциплінарну методологію, що базується на прикладних математичних методах та сучасних інформаційних технологіях і орієнтована на вирішення задач аналізу і синтезу технічних, економічних, соціальних, екологічних та інших складних систем. К18. Здатність формалізувати проблеми, описані природною мовою, у тому числі за допомогою математичних методів, застосовувати загальні підходи до математичного моделювання конкретних процесів. К19. Здатність будувати математично коректні моделі статичних та динамічних процесів і систем із зосередженими та розподіленими параметрами із врахуванням невизначеності зовнішніх та внутрішніх факторів. К20. Здатність визначати основні чинники, які впливають на розвиток фізичних, економічних, соціальних процесів, виокремлювати в них стохастичні та невизначені показники, формулювати їх у вигляді випадкових або нечітких величин, векторів, процесів та досліджувати залежності між ними. К23. Здатність використовувати сучасні інформаційні технології для комп’ютерної реалізації математичних моделей та прогнозування поведінки конкретних систем а саме: об’єктно-орієнтований підхід при проектуванні складних систем різної природи, прикладні математичні пакети, застосування баз даних і знань. К26. Здатність розробляти експериментальні та спостережувальні дослідження і аналізувати дані, отримані в них.
Результати навчання: У результаті вивчення навчальної дисципліни здобувач освіти повинен бути здатним: • виконувати постановку задач проектування машинного навчання • застосовувати методи та алгоритми проектування та оптимізації систем машинного навчання • здійснювати процедури адміністрування та реінжинірингу систем машинного навчання • створювати інтелектуальні системи на основі сучасних технологій машинного навчання ПР02. Вміти використовувати стандартні схеми для розв’язання комбінаторних та логічних задач, що сформульовані природною мовою, застосовувати класичні алгоритми для перевірки властивостей та класифікації об’єктів, множин, відношень, графів, груп, кілець, решіток, булевих функцій тощо. ПР12. Застосовувати методи і засоби роботи з даними і знаннями, методи математичного, логіко-семантичного, об’єктного та імітаційного моделювання, технології системного і статистичного аналізу. ПР14. Розуміти і застосовувати на практиці методи статистичного моделювання і прогнозування, оцінювати вихідні дані.
Необхідні обов'язкові попередні та супутні навчальні дисципліни: • Математична статистика • Теорія імовірності • Дискретна математика
Короткий зміст навчальної програми: Курс присвячений машинному навчанню - одному з найбільш актуальних і математично глибоких розділів сучасного штучного інтелекту. Протягом курсу вивчаються найбільш часто застосовувані самонавчальні системи (дерева прийняття рішень, нейронні мережі, генетичні алгоритми), найпоширеніші завдання (класифікація, кластеризація), докладно розглядається задача маргіналізації як центральне завдання теорії байєсівського виведення. Курс також містить конкретні практичні завдання, що вирішуються за допомогою різних методів машинного навчання
Опис: Лекція 1. Вступна лекція та Intro до МН: - організаційні питання. Виконання, здача та захист лаб. Курсова робота (для СА-33) - про що курс буде, а про що ні -вступ в ML - поняття та ідеї, цикл DS проєктів - пререквізити та припущення про знання студентів - таксономія задач та проблем у ML - поняття моделі, вибірки, сплітингу вибірки, навчання та оцінки якості Лекція 2. SL. Лінійна регресія, ч1: - задача регресії - однофакторна ЛР (ручний розв’язок для екзамену) - способи означення багатофакторної регресії (задача LA, OLS, функція втрат, припущення) - нормальна форма розв’язку, проблема мультиколінеарності - метрики регресійних моделей - аналіз лишків - зведення нелінійної регрерсії до моделі ЛР -зведення багатовихідної регресії до множини одновихідних - (з прикладом навчання) Лекція 3. SL. Регуляризація (моделі ЛР) + статистичне означення SL задач: - under та overfitting - поняття регуляризації: L1, L2 та еластікнет - гіперпараметри та їх підбір -крос-валідація для тюнингу гіперпараметрів - крос-валідація для порівняння моделей - статистичне означення задачі регресії: MLE + MAP (для регрсії) - (з прикладом навчання та тюнингу) Лекція 4. EDA + препроцесинг даних + Feature extraction: - поняття, етапи та види EDA - призначення препроцесингу + “навчання препроцесингів” - препроцесинг неперервних змінних: - масштабування та центрування даних (нормалізація, стандартизація тощо) - бінаризація та кластеризація (для просторових даних) -препроцесинг категоріальних зміннних: - кодування (one-hot, multihot, label та ordinal) - ембединг - таргет-енкодинг та згладжування - опрацювання пропущенних даних - поняття FE, кореляція та mutual info для селекції Лекція 5. SL, класифікція, ч1. Задача бінарної класифікції. Логістична регресія: - задача (бінарної) класифікації, MLE для бін. класифікації, функція втрат - метрики для бінарної класифікації (acc, prec+recall, F1, Fb, ROC AUC, confusion matrix) - баланс даних, методи балансування - модель логістичної регресії - (з прикладом навчання) Лекція 6. SL, класифікція, ч1. Задача бінарної класифікції. SVM, наївний Баєс, SGD класифікатор: - SVM - Модель наївного Баєса - SGD класифікатор -(з ручними та програмновними прикладами) Лекція 7. SL, класифікція, ч2. Задача мультикласової класифікції. K-ближчих сусідів. Дерева рішень: - мультикласова класифікція, MLE для класифікації, softmax функція - метрики класифікації, зваження бінарних метрик для мультикласових задач - метод K-ближчих сусідів - дерева рішень (з ручним прикладом) (на прикладі ID3 або CART) Лекція 8. SL Моделі класифікації для задач регресії. Ансамблі, ч1. Стекінг та випалкові ліси: - (продовження про дерева) - поняття та види ансамблів -bagging моделей -стекінг моделей -випадкові ліси -(з прикладом навчання) Лекція 9. SL. Ансамблі, ч1. Бустинг: -дерева для задач регресії -поняття та види бустингу -бустинг для регресії та класифікації -lightgbm, XGBoost -(з прикладами навчання) Лекція 10. UnSL. Задача зменшення вимірності: PCA та навчання на многовидах (manifold): - суть задачі зменшення вимірності. Метрики якості - PCA + як метод FE - ICA та IncrementPCA та SVD (спрощено) - ідея навчання на многовидах - Umap, t-SNE, Isomap Лекція 11. UnSL. Задача кластеризації: - кластеризація за метрикою - K-середніх, MiniBatchKMeans, BIRCH - кластеризація за “щільністю” - DBSCAN, OPTICS - метрики кластеризації (з та без відомих наперед кластерів) - (з прикладами навчання) - кластеризація для опрацювання пропущених даних Лекція 12. UnSL. Задача виявлення викидів. Задача пошуку асоціативних правил: - викиди та їх опрацювання (включно з novelty) - визначення викидів як задача з та без вчителя - правило Махаланубіса, OneClassSVM/IsolationForest -асоціативні правила apriori (з прикладом)
Методи та критерії оцінювання: Діагностика знань відбувається шляхом оцінювання виконаних лабораторних робіт та екзаменаційного контролю (письмової та усної компоненти) у формі тестових запитань.
Критерії оцінювання результатів навчання: • Підсумковий контроль (100%, курсова робота): захист .
Порядок та критерії виставляння балів та оцінок: 100–88 балів – («відмінно») виставляється за високий рівень знань (допускаються деякі неточності) навчального матеріалу компонента, що міститься в основних і додаткових рекомендованих літературних джерелах, вміння аналізувати явища, які вивчаються, у їхньому взаємозв’язку і роз витку, чітко, лаконічно, логічно, послідовно відповідати на поставлені запитання, вміння застосовувати теоретичні положення під час розв’язання практичних задач; 87–71 бал – («добре») виставляється за загалом правильне розуміння навчального матеріалу компонента, включаючи розрахунки , аргументовані відповіді на поставлені запитання, які, однак, містять певні (неістотні) недоліки, за вміння застосовувати теоретичні положення під час розв’язання практичних задач; 70 – 50 балів – («задовільно») виставляється за слабкі знання навчального матеріалу компонента, неточні або мало аргументовані відповіді, з порушенням послідовності викладення, за слабке застосування теоретичних положень під час розв’язання практичних задач; 49–26 балів – («не атестований» з можливістю повторного складання семестрового контролю) виставляється за незнання значної частини навчального матеріалу компонента, істотні помилки у відповідях на запитання, невміння застосувати теоретичні положення під час розв’язання практичних задач; 25–00 балів – («незадовільно» з обов’язковим повторним вивченням) виставляється за незнання значної частини навчального матеріалу компонента, істотні помилки у відповідях на запитання, невміння орієнтуватися під час розв’язання практичних задач, незнання основних фундаментальних положень.
Рекомендована література: • Захарія Л.М. “Інформаційний пошук. Алгоритми класифікації текстових документів” методичні вказівки до дисципліни “Машинне навчання” Львів: Видавництво Національного університету “Львівська політехніка”, 2012. — 36 с.
Уніфікований додаток: Національний університет «Львівська політехніка» забезпечує реалізацію права осіб з інвалідністю на здобуття вищої освіти. Інклюзивні освітні послуги надає Служба доступності до можливостей навчання «Без обмежень», метою діяльності якої є забезпечення постійного індивідуального супроводу навчального процесу студентів з інвалідністю та хронічними захворюваннями. Важливим інструментом імплементації інклюзивної освітньої політики в Університеті є Програма підвищення кваліфікації науково-педагогічних працівників та навчально-допоміжного персоналу у сфері соціальної інклюзії та інклюзивної освіти. Звертатися за адресою: вул. Карпінського, 2/4, І-й н.к., кімн. 112 E-mail: nolimits@lpnu.ua Websites: https://lpnu.ua/nolimits https://lpnu.ua/integration
Академічна доброчесність: Політика щодо академічної доброчесності учасників освітнього процесу формується на основі дотримання принципів академічної доброчесності з урахуванням норм «Положення про академічну доброчесність у Національному університеті «Львівська політехніка» (затверджене вченою радою університету від 20.06.2017 р., протокол № 35).

Машинне навчання (курсова робота)

Спеціальність: Системний аналіз
Код дисципліни: 6.124.03.E.072
Кількість кредитів: 2.00
Кафедра: Інформаційні системи та мережі
Лектор: д.т.н., проф. Литвин Василь Володимирович
Семестр: 6 семестр
Форма навчання: денна
Мета вивчення дисципліни: Мета дисципліни – вивчення методів та засобів машинного навчання, зокрема – застосування генетичних алгоритмів, методів класифікації та регресії, дерев рішень, методів кластеризації, задач пошуку в просторі гіпотез, нейронних мереж, байесових мереж, мультиагентних систем, – сучасних технологій опрацювання знань в інтелектуальних інформаційних системах.
Завдання: Вивчення навчальної дисципліни передбачає формування у здобувачів освіти компетентностей: загальні компетентності: К01. Здатність до абстрактного мислення, аналізу та синтезу. К02. Здатність застосовувати знання у практичних ситуаціях. К04. Знання та розуміння предметної області та розуміння професійної діяльності. К13. Здатність працювати в міжнародному контексті. фахові компетентності: К17. Здатність використовувати системний аналіз як сучасну міждисциплінарну методологію, що базується на прикладних математичних методах та сучасних інформаційних технологіях і орієнтована на вирішення задач аналізу і синтезу технічних, економічних, соціальних, екологічних та інших складних систем. К18. Здатність формалізувати проблеми, описані природною мовою, у тому числі за допомогою математичних методів, застосовувати загальні підходи до математичного моделювання конкретних процесів. К19. Здатність будувати математично коректні моделі статичних та динамічних процесів і систем із зосередженими та розподіленими параметрами із врахуванням невизначеності зовнішніх та внутрішніх факторів. К20. Здатність визначати основні чинники, які впливають на розвиток фізичних, економічних, соціальних процесів, виокремлювати в них стохастичні та невизначені показники, формулювати їх у вигляді випадкових або нечітких величин, векторів, процесів та досліджувати залежності між ними. К23. Здатність використовувати сучасні інформаційні технології для комп’ютерної реалізації математичних моделей та прогнозування поведінки конкретних систем а саме: об’єктно-орієнтований підхід при проектуванні складних систем різної природи, прикладні математичні пакети, застосування баз даних і знань. К26. Здатність розробляти експериментальні та спостережувальні дослідження і аналізувати дані, отримані в них.
Результати навчання: У результаті вивчення навчальної дисципліни здобувач освіти повинен бути здатним: • виконувати постановку задач проектування машинного навчання • застосовувати методи та алгоритми проектування та оптимізації систем машинного навчання • здійснювати процедури адміністрування та реінжинірингу систем машинного навчання • створювати інтелектуальні системи на основі сучасних технологій машинного навчання ПР02. Вміти використовувати стандартні схеми для розв’язання комбінаторних та логічних задач, що сформульовані природною мовою, застосовувати класичні алгоритми для перевірки властивостей та класифікації об’єктів, множин, відношень, графів, груп, кілець, решіток, булевих функцій тощо. ПР12. Застосовувати методи і засоби роботи з даними і знаннями, методи математичного, логіко-семантичного, об’єктного та імітаційного моделювання, технології системного і статистичного аналізу. ПР14. Розуміти і застосовувати на практиці методи статистичного моделювання і прогнозування, оцінювати вихідні дані.
Необхідні обов'язкові попередні та супутні навчальні дисципліни: • Математична статистика • Теорія імовірності • Дискретна математика
Короткий зміст навчальної програми: Курс присвячений машинному навчанню - одному з найбільш актуальних і математично глибоких розділів сучасного штучного інтелекту. Протягом курсу вивчаються найбільш часто застосовувані самонавчальні системи (дерева прийняття рішень, нейронні мережі, генетичні алгоритми), найпоширеніші завдання (класифікація, кластеризація), докладно розглядається задача маргіналізації як центральне завдання теорії байєсівського виведення. Курс також містить конкретні практичні завдання, що вирішуються за допомогою різних методів машинного навчання
Опис: Лекція 1. Вступна лекція та Intro до МН: - організаційні питання. Виконання, здача та захист лаб. Курсова робота (для СА-33) - про що курс буде, а про що ні -вступ в ML - поняття та ідеї, цикл DS проєктів - пререквізити та припущення про знання студентів - таксономія задач та проблем у ML - поняття моделі, вибірки, сплітингу вибірки, навчання та оцінки якості Лекція 2. SL. Лінійна регресія, ч1: - задача регресії - однофакторна ЛР (ручний розв’язок для екзамену) - способи означення багатофакторної регресії (задача LA, OLS, функція втрат, припущення) - нормальна форма розв’язку, проблема мультиколінеарності - метрики регресійних моделей - аналіз лишків - зведення нелінійної регрерсії до моделі ЛР -зведення багатовихідної регресії до множини одновихідних - (з прикладом навчання) Лекція 3. SL. Регуляризація (моделі ЛР) + статистичне означення SL задач: - under та overfitting - поняття регуляризації: L1, L2 та еластікнет - гіперпараметри та їх підбір -крос-валідація для тюнингу гіперпараметрів - крос-валідація для порівняння моделей - статистичне означення задачі регресії: MLE + MAP (для регрсії) - (з прикладом навчання та тюнингу) Лекція 4. EDA + препроцесинг даних + Feature extraction: - поняття, етапи та види EDA - призначення препроцесингу + “навчання препроцесингів” - препроцесинг неперервних змінних: - масштабування та центрування даних (нормалізація, стандартизація тощо) - бінаризація та кластеризація (для просторових даних) -препроцесинг категоріальних зміннних: - кодування (one-hot, multihot, label та ordinal) - ембединг - таргет-енкодинг та згладжування - опрацювання пропущенних даних - поняття FE, кореляція та mutual info для селекції Лекція 5. SL, класифікція, ч1. Задача бінарної класифікції. Логістична регресія: - задача (бінарної) класифікації, MLE для бін. класифікації, функція втрат - метрики для бінарної класифікації (acc, prec+recall, F1, Fb, ROC AUC, confusion matrix) - баланс даних, методи балансування - модель логістичної регресії - (з прикладом навчання) Лекція 6. SL, класифікція, ч1. Задача бінарної класифікції. SVM, наївний Баєс, SGD класифікатор: - SVM - Модель наївного Баєса - SGD класифікатор -(з ручними та програмновними прикладами) Лекція 7. SL, класифікція, ч2. Задача мультикласової класифікції. K-ближчих сусідів. Дерева рішень: - мультикласова класифікція, MLE для класифікації, softmax функція - метрики класифікації, зваження бінарних метрик для мультикласових задач - метод K-ближчих сусідів - дерева рішень (з ручним прикладом) (на прикладі ID3 або CART) Лекція 8. SL Моделі класифікації для задач регресії. Ансамблі, ч1. Стекінг та випалкові ліси: - (продовження про дерева) - поняття та види ансамблів -bagging моделей -стекінг моделей -випадкові ліси -(з прикладом навчання) Лекція 9. SL. Ансамблі, ч1. Бустинг: -дерева для задач регресії -поняття та види бустингу -бустинг для регресії та класифікації -lightgbm, XGBoost -(з прикладами навчання) Лекція 10. UnSL. Задача зменшення вимірності: PCA та навчання на многовидах (manifold): - суть задачі зменшення вимірності. Метрики якості - PCA + як метод FE - ICA та IncrementPCA та SVD (спрощено) - ідея навчання на многовидах - Umap, t-SNE, Isomap Лекція 11. UnSL. Задача кластеризації: - кластеризація за метрикою - K-середніх, MiniBatchKMeans, BIRCH - кластеризація за “щільністю” - DBSCAN, OPTICS - метрики кластеризації (з та без відомих наперед кластерів) - (з прикладами навчання) - кластеризація для опрацювання пропущених даних Лекція 12. UnSL. Задача виявлення викидів. Задача пошуку асоціативних правил: - викиди та їх опрацювання (включно з novelty) - визначення викидів як задача з та без вчителя - правило Махаланубіса, OneClassSVM/IsolationForest -асоціативні правила apriori (з прикладом)
Методи та критерії оцінювання: Діагностика знань відбувається шляхом оцінювання виконаних лабораторних робіт та екзаменаційного контролю (письмової та усної компоненти) у формі тестових запитань.
Критерії оцінювання результатів навчання: • Підсумковий контроль (100%, курсова робота): захист .
Порядок та критерії виставляння балів та оцінок: 100–88 балів – («відмінно») виставляється за високий рівень знань (допускаються деякі неточності) навчального матеріалу компонента, що міститься в основних і додаткових рекомендованих літературних джерелах, вміння аналізувати явища, які вивчаються, у їхньому взаємозв’язку і роз витку, чітко, лаконічно, логічно, послідовно відповідати на поставлені запитання, вміння застосовувати теоретичні положення під час розв’язання практичних задач; 87–71 бал – («добре») виставляється за загалом правильне розуміння навчального матеріалу компонента, включаючи розрахунки , аргументовані відповіді на поставлені запитання, які, однак, містять певні (неістотні) недоліки, за вміння застосовувати теоретичні положення під час розв’язання практичних задач; 70 – 50 балів – («задовільно») виставляється за слабкі знання навчального матеріалу компонента, неточні або мало аргументовані відповіді, з порушенням послідовності викладення, за слабке застосування теоретичних положень під час розв’язання практичних задач; 49–26 балів – («не атестований» з можливістю повторного складання семестрового контролю) виставляється за незнання значної частини навчального матеріалу компонента, істотні помилки у відповідях на запитання, невміння застосувати теоретичні положення під час розв’язання практичних задач; 25–00 балів – («незадовільно» з обов’язковим повторним вивченням) виставляється за незнання значної частини навчального матеріалу компонента, істотні помилки у відповідях на запитання, невміння орієнтуватися під час розв’язання практичних задач, незнання основних фундаментальних положень.
Рекомендована література: • Захарія Л.М. “Інформаційний пошук. Алгоритми класифікації текстових документів” методичні вказівки до дисципліни “Машинне навчання” Львів: Видавництво Національного університету “Львівська політехніка”, 2012. — 36 с.
Уніфікований додаток: Національний університет «Львівська політехніка» забезпечує реалізацію права осіб з інвалідністю на здобуття вищої освіти. Інклюзивні освітні послуги надає Служба доступності до можливостей навчання «Без обмежень», метою діяльності якої є забезпечення постійного індивідуального супроводу навчального процесу студентів з інвалідністю та хронічними захворюваннями. Важливим інструментом імплементації інклюзивної освітньої політики в Університеті є Програма підвищення кваліфікації науково-педагогічних працівників та навчально-допоміжного персоналу у сфері соціальної інклюзії та інклюзивної освіти. Звертатися за адресою: вул. Карпінського, 2/4, І-й н.к., кімн. 112 E-mail: nolimits@lpnu.ua Websites: https://lpnu.ua/nolimits https://lpnu.ua/integration
Академічна доброчесність: Політика щодо академічної доброчесності учасників освітнього процесу формується на основі дотримання принципів академічної доброчесності з урахуванням норм «Положення про академічну доброчесність у Національному університеті «Львівська політехніка» (затверджене вченою радою університету від 20.06.2017 р., протокол № 35).