Системи інтелектуального аналізу та візуалізації даних

Спеціальність: Комп'ютерні науки (Проектування і програмування інтелектуальних систем та пристроїв)
Код дисципліни: 6.122.12.O.023
Кількість кредитів: 5.00
Кафедра: Системи автоматизованого проектування
Лектор: Андрій КЕРНИЦЬКИЙ
Семестр: 4 семестр
Форма навчання: денна
Мета вивчення дисципліни: Метою викладання навчальної дисципліни «Системи інтелектуального аналізу та візуалізації даних» є вивчення методів сучасної обробки даних – інтелектуального аналізу даних (Data Mining), аналітичного дослідження великих масивів інформації з метою виявлення нових раніше невідомих, практично корисних знань і закономірностей, необхідних для прийняття рішень; огляд методів, програмних продуктів і різних інструментальних засобів, які використовуються Data Mining; розгляд практичних прикладів застосування Data Mining; підготовка студентів до самостійної роботи з вирішення задач засобами Data Mining і розробки інтелектуальних систем. Data Mining – мультидисциплінарна область, яка виникла і розвивається на базі таких наук як прикладна статистика, розпізнавання образів, штучний інтелект, теорія баз даних тощо.
Завдання: • опанувати базові принципи побудови моделей даних; • ознайомитися з концепцією Knowledge Discovery in Data (виявлення знань в даних) і Data Mining («видобування» знань); • навчитися ефективно використовувати методи здобуття знать з великих масивів даних; • ознайомитися з основними типами задач, що можуть бути вирішені за допомогою методів інтелектуального аналізу даних; • отримати практичні навички з використання інструментальних засобів інтелектуального аналізу даних при вирішенні прикладних задач та навчитися інтерпретувати отримані результати. Вивчення навчальної дисципліни передбачає формування та розвиток у студентів компетентностей: загальних: • здатність застосовувати знання у практичних ситуаціях; • знання та розуміння предметної області та розуміння професійної діяльності; • здатність вчитися і оволодівати сучасними знаннями; • здатність до пошуку, оброблення та аналізу інформації з різних джерел. фахових: • здатність використовувати сучасні програмні засоби для проектування та дослідження систем інтелектуального аналізу даних; • здатність застосовувати технології роботи зі сховищами даних, здійснювати їх аналітичну обробку та інтелектуальний аналіз для забезпечення надійної роботи інформаційних систем; • обґрунтовувати вибір конкретного типу моделі та методу інтелектуального аналізу даних при • вирішенні поставленої практичної задачі; • проводити необхідну попередню обробку даних, визначати тип задачі аналізу, вирішувати її адекватно • обраним методом з оптимально визначеними параметрами, оцінювати результати, робити змістовні висновки та інтерпретацію; • використовувати сучасні програмні засоби для проектування та дослідження систем інтелектуального аналізу даних; • самостійно застосовувати алгоритми Data Mining при обробці даних; • самостійно розробляти та будувати моделі сховищ даних; • самостійно проводити аналіз даних для виявлення знань; • самостійно використовувати OLAP-систему при обробці баз даних. Результати навчання даної дисципліни деталізують такі програмні результати навчання: Класифікація компетентностей за НРК: Вміння розкрити наукову суть проблем у професійній галузі Здатність вирішувати проблеми в професійній галузі на основі аналізу та синтезу. Знання: Знання наукових і методологічні основ створення та застосування інформаційних технологій та інформаційних систем для автоматизован ої переробки інформації та управління. Уміння: Уміння застосовувати теоретичні знання у практичних ситуаціях у науковій діяльності. Комунікація: Спілкування в діалоговому режимі з широкою науковою спільнотою та громадськістю в певній галузі наукової та/або професійної діяльності. Автономія та відповідальність: Ініціювання інноваційних комплексних проектів, лідерство та повна автономність під час їх реалізації Соціальна відповідальність за результати прийняття стратегічних рішень. Здатність саморозвиватися і самовдосконалюватися протягом життя, відповідальність за навчання інших.
Результати навчання: В результаті вивчення дисципліни, фахівець повинен знати: • основні поняття, задачі та стадії інтелектуального аналізу даних; • підходи к збереженню, представленню та обробці інформації в сучасних інформаційних системах; • методи побудови моделей та аналізу залежностей у великих масивах даних; • сучасні програмні засоби для проектування i розробки систем інтелектуального аналізу даних. Підготовлений фахівець повинен вміти: • обґрунтовувати вибір конкретного типу моделі та методу інтелектуального аналізу даних при • вирішенні поставленої практичної задачі; • проводити необхідну попередню обробку даних, визначати тип задачі аналізу, вирішувати її адекватно • обраним методом з оптимально визначеними параметрами, оцінювати результати, робити змістовні • висновки та інтерпретацію; • використовувати сучасні програмні засоби для проектування та дослідження систем інтелектуального аналізу даних.
Необхідні обов'язкові попередні та супутні навчальні дисципліни: Попередні навчальні дисципліни: Організація баз даних та знать Супутні і наступні навчальні дисципліни: Методи та системи штучного інтелекту
Короткий зміст навчальної програми: Що таке інтелектуальний аналіз даних (Data Mining, Knowledge Discovery in Data). Дані. Інформація. Знання. . Історичний огляд. Виникнення, перспективи, проблеми Data mining. Поняття даних. Об’єкт і атрибут, вибірка, залежна і незалежна змінна. Типи шкал. Типи наборів даних. Поняття бази даних и СУБД. Поняття "інформація" і "знання", співставлення и порівняння цих понять. Методи і стадії Data Mining. Стадії Data Mining і дії, що виконуються в рамках цих стадій. Класифікації методів Data Mining. Порівняльна характеристика деяких методів. Задачі Data Mining. Задачі класифікації і кластеризації. Опис суті задач, процес розв’язування, методи розв’язування, застосування. Порівняння цих двох задач. Задачі прогнозування. Поняття часового ряду, його компонент, параметрів прогнозування, види прогнозів. Задача візуалізації даних. Сфери застосування Data Mining. Основні сфери діяльності людини, де можна успішно застосовувати технології Data Mining. Поняття Web Mining, Text Mining, Call Mining. Методи класифікації і прогнозування. Метод побудови дерева розв’язків для розв’язування задачі класифікації. Алгоритм „Кора” і C4.5. Основні ідеї методу опорних векторів і методу "найближчого сусіда". Переваги і недоліки цих методів. Приклади розв’язування задач. Методи кластерного аналізу. Основи кластерного аналізу, математичні характеристики кластера. Дві групи ієрархічного кластерного анализу: агломеративні і дівізімні методи. Методи пошуку асоціативних правил. Суть задачі пошуку асоціативних правил. Алгоритм Apriori. Процес Data Mining. Процес підготовки даних, поняття якості даних, засмічених даних, етапи очистки даних, редагування даних. Етапи процесу Data Mining, пов’язані з побудовою, перевіркою, оцінкою, вибором и корекцією моделей. Поняття "модель" і "моделювання".
Опис: Тема 1. Основи інтелектуального аналізу даних. Визначення Data Mining і область застосування. Задачі, моделі та методи Data Mining. Поняття Business Intelligence. Тема 2. Дані, інформація, знання. Ієрархія понять «відомості – дані – інформація – знання». Атрибути даних, типи, значення, властивості значень. Вимірювання, шкали. Метадані. Влсвтивості інформації та знань. Тема 3. Вирішення задачі регресії Сутність задачі прогнозування. Методи вирішення задачі регресії. Лінійна регресія, метод найменших квадратів. Тема 4. Вирішення задачі класифікації Постановка задачі класифікації та представлення результатів. Методи побудови правил класифікації. Методи побудови дерев рішень. Методи побудови математичних функцій. Методи опорних векторів, «найближчого сусіда», Байеса. Аналіз багатомірних угрупувань. Класифікація об’єктів у випадку невідомих розподілень даних. Методи оцінювання помилок класифікації. Тема 5. Вирішення задачі пошуку асоціативних правил Постановка задачі пошуку асоціативних правил та представлення результатів. Секвенціальний аналіз. Різновиди задач пошуку асоціативних правил. Методи подання результатів. Алгоритми пошуку асоціативних правил. Методи пошуку асоціативних правил: метод Apriori, побудова FP- дерев пошуку шаблонів даних. Побудова hash-дерев. Тема 6. Вирішення задачі кластеризації Постановка задачі кластеризації та представлення результатів. Види кластерів. Міри близькості, засновані на відстанях. Базові алгоритми кластеризации. Адаптивні методи кластеризації. Тема 7. Методи прогнозування. Нейронні мережі. Метод нейронних мереж. Елементи та архітектура, процес навчання і явище перенавчання нейронної мережі. Персептрон. Приклад вирішення задачі за допомогою апарату нейронних мереж. Класифікації нейронних мереж. Процес підготовки даних для навчання. Карти Кохонена, що самоорганізуються. Пиклади розв'язання задач. Тема 8. Процес виявлення знань. Цикл одержання, попередньої обробки, аналізу даних, інтерпретації результатів та їхнього використання. Етапи процесу Data Mining, пов’язані з побудовою, перевіркою, оцінкою, вибором і корекцією моделей. Методи первісної обробки даних. Інструментальні засоби Data Mining. Методи дослідження структури даних: візуалізація даних. Тема 9. Сховища даних. Особливості концепції сховищ даних Основні положення концепції сховищ даних Завдання, які вирішуються в сховищах даних. Архітектури сховищ даних. Тема 10. OLAP системи. Поняття та модель даних OLAP. Структура OLAP-куба. Ієрархія вимірювань OLAP-кубів. Операції, що виконуються над гіперкубом. Таблиця фактів. Таблиці вимірювань. Архітектура OLAP-систем. Клієнтські OLAP-засоби. Серверні OLAP-засоби. Технічні аспекти багатовимірного зберігання даних. Багатомірний OLAP (MOLAP). Реляційний OLAP (ROLAP). Гібридний OLAP (HOLAP). Загальні відомості про багатовимірний аналізі даних за допомогою служб SQL Server 2005 Analysis Services і SQL Server 2008 Analysis Services
Методи та критерії оцінювання: Підсумковий контроль знань проводиться у формі іспиту. Лабораторні заняття (ЛЗ): 30 КР: 10 ПК (ЛЗ+КР): 40 Письмова компонента: 50 Усна компонента: 10
Критерії оцінювання результатів навчання: Навчання проводиться у формі лекцій, лабораторних занять, виконання контрольних робіт та самостійної роботи студента. Об’єктом поточного контролю знань студентів є: • систематичність, якість та активність виконання практичних завдань; • систематичність та своєчасність виконання завдань самостійної роботи студента; • якість виконання контрольних робіт.
Порядок та критерії виставляння балів та оцінок: 100–88 балів – («відмінно») виставляється за високий рівень знань (допускаються деякі неточності) навчального матеріалу компонента, що міститься в основних і додаткових рекомендованих літературних джерелах, вміння аналізувати явища, які вивчаються, у їхньому взаємозв’язку і роз витку, чітко, лаконічно, логічно, послідовно відповідати на поставлені запитання, вміння застосовувати теоретичні положення під час розв’язання практичних задач; 87–71 бал – («добре») виставляється за загалом правильне розуміння навчального матеріалу компонента, включаючи розрахунки , аргументовані відповіді на поставлені запитання, які, однак, містять певні (неістотні) недоліки, за вміння застосовувати теоретичні положення під час розв’язання практичних задач; 70 – 50 балів – («задовільно») виставляється за слабкі знання навчального матеріалу компонента, неточні або мало аргументовані відповіді, з порушенням послідовності викладення, за слабке застосування теоретичних положень під час розв’язання практичних задач; 49–26 балів – («не атестований» з можливістю повторного складання семестрового контролю) виставляється за незнання значної частини навчального матеріалу компонента, істотні помилки у відповідях на запитання, невміння застосувати теоретичні положення під час розв’язання практичних задач; 25–00 балів – («незадовільно» з обов’язковим повторним вивченням) виставляється за незнання значної частини навчального матеріалу компонента, істотні помилки у відповідях на запитання, невміння орієнтуватися під час розв’язання практичних задач, незнання основних фундаментальних положень.
Рекомендована література: . Han J. Data Mining: Concepts and Techniques (Second Edition)/ J. Han, M. Kamber – Morgan Kaufmann Publishers, 2006. – 800 p. 2. Witten, I.H. Data mining : practical machine learning tools and techniques.—3rd ed. / Ian H. Witten, Frank Eibe, Mark A. Hall. – Morgan Kaufmann Publishers, 2011. – 629 p. 3. Ланде Д.В., Субач І.Ю., Бояринова Ю.Є. Основи теорії і практики інтелектуального аналізу даних у сфері кібербезпеки: навчальний посібник. — К.: ІСЗЗІ КПІ ім. Ігоря Сікорського», 2018. — 297 с.
Уніфікований додаток: Національний університет «Львівська політехніка» забезпечує реалізацію права осіб з інвалідністю на здобуття вищої освіти. Інклюзивні освітні послуги надає Служба доступності до можливостей навчання «Без обмежень», метою діяльності якої є забезпечення постійного індивідуального супроводу навчального процесу студентів з інвалідністю та хронічними захворюваннями. Важливим інструментом імплементації інклюзивної освітньої політики в Університеті є Програма підвищення кваліфікації науково-педагогічних працівників та навчально-допоміжного персоналу у сфері соціальної інклюзії та інклюзивної освіти. Звертатися за адресою: вул. Карпінського, 2/4, І-й н.к., кімн. 112 E-mail: nolimits@lpnu.ua Websites: https://lpnu.ua/nolimits https://lpnu.ua/integration
Академічна доброчесність: Політика щодо академічної доброчесності учасників освітнього процесу формується на основі дотримання принципів академічної доброчесності з урахуванням норм «Положення про академічну доброчесність у Національному університеті «Львівська політехніка» (затверджене вченою радою університету від 20.06.2017 р., протокол № 35).