Технології великих даних в системах комп'ютерного моніторингу

Спеціальність: Комп'ютерний еколого-економічний моніторинг
Код дисципліни: 7.122.08.M.012
Кількість кредитів: 5.00
Кафедра: Інформаційних систем і технологій
Лектор: к.т.н. Мисик М.М., к.т.н., доцент Лагун А.Е.
Семестр: 2 семестр
Форма навчання: денна
Мета вивчення дисципліни: Метою вивчення навчальної дисципліни є одержання студентами теоретичних знань та практичних навичок роботи з великими даними, ознайомлення з основними поняттями, методами та засобами обробки великих даних із урахуванням їх особливостей у системах комп'ютерного моніторингу.
Завдання: Основними завданнями вивчення дисципліни є навчання студентів збиранню, зберіганню та оперуванню великими даними із урахуванням їх особливостей. Вивчення навчальної дисципліни передбачає формування у здобувачів освіти компетентностей: загальні компетентності: ІНТ. Здатність розв’язувати задачі дослідницького та/або інноваційного характеру у сфері комп’ютерних наук; ЗК01. Здатність до абстрактного мислення, аналізу та синтезу. ЗК02. Здатність застосовувати знання у практичних ситуаціях. ЗК03. Здатність спілкуватися державною мовою як усно, так і письмово. ЗК04. Здатність спілкуватися іноземною мовою. ЗК05. Здатність вчитися й оволодівати сучасними знаннями. ЗК07. Здатність генерувати нові ідеї (креативність). фахові компетентності: СК01. Усвідомлення теоретичних засад комп’ютерних наук. СК02. Здатність формалізувати предметну область певного проєкту у вигляді відповідної інформаційної моделі. СК03. Здатність використовувати математичні методи для аналізу формалізованих моделей предметної області. СК04. Здатність збирати і аналізувати дані (включно з великими), для забезпечення якості прийняття проєктних рішень. СК05. Здатність розробляти, описувати, аналізувати та оптимізувати архітектурні рішення інформаційних та комп’ютерних систем різного призначення. СК08. Здатність розробляти і реалізовувати проекти зі створення програмного забезпечення, у тому числі в непередбачуваних умовах, за нечітких вимог та необхідності застосовувати нові стратегічні підходи, використовувати програмні інструменти для організації командної роботи над проектом. СК09. Здатність розробляти та адмініструвати бази даних та знань. СК11. Здатність ініціювати, планувати та реалізовувати процеси розробки інформаційних та комп’ютерних систем та програмного забезпечення, включно з його розробкою, аналізом, тестуванням, системною інтеграцією, впровадженням і супроводом.
Результати навчання: У результаті вивчення навчальної дисципліни здобувач освіти повинен бути здатним продемонструвати такі програмні результати навчання: ПР1. Мати спеціалізовані концептуальні знання, що включають сучасні наукові здобутки у сфері комп’ютерних наук і є основою для оригінального мислення та проведення досліджень, критичне осмислення проблем у сфері комп’ютерних наук та на межі галузей знань. ПР2. Мати спеціалізовані уміння/навички розв’язання проблем комп’ютерних наук, необхідні для проведення досліджень та/або провадження інноваційної діяльності з метою розвитку нових знань та процедур. ПР6. Розробляти концептуальну модель інформаційної або комп’ютерної системи. ПР7. Розробляти та застосовувати математичні методи для аналізу інформаційних моделей. ПР8. Розробляти математичні моделі та методи аналізу даних (включно з великими). ПР9. Розробляти алгоритмічне та програмне забезпечення для аналізу даних (включно з великими). ПР10. Проектувати архітектурні рішення інформаційних та комп’ютерних систем різного призначення ПР11. Створювати нові алгоритми розв’язування задач у сфері комп’ютерних наук, оцінювати їх ефективність та обмеження на їх застосування ПР12. Проектувати та супроводжувати бази даних та знань. ПР13. Оцінювати та забезпечувати якість інформаційних та комп’ютерних систем різного призначення. ПР15. Виявляти потреби потенційних замовників щодо автоматизації обробки інформації. ПР16. Виконувати дослідження у сфері комп’ютерних наук. ПР17. Виявляти та усувати проблемні ситуації в процесі експлуатації програмного забезпечення, формулювати завдання для його модифікації або реінжинірингу. ПР18. Збирати, формалізувати, систематизувати і аналізувати потреби та вимоги до інформаційної або комп’ютерної системи, що розробляється, експлуатується чи супроводжується ПР19. Аналізувати сучасний стан і світові тенденції розвитку комп’ютерних наук та інформаційних технологій УМ1.2. Знати способи і методи навчання, методи самоосвіти, основи наукової та дослідницької діяльності, методи пошуку, збору, аналізу й обробки інформації УМ1.4. Використовувати базові знання і навички для розроблення компонент візуалізації роботи інтелектуальних систем. УМ1.5. Розробляти моделі потоків даних, сховища і простори даних, бази знань для інтелектуальних систем. УМ1.8. Розробляти функціональні середовища з застосуванням відкритих систем, інтерфейсів прикладного програмування, прикладних програм і додатків з властивостями: розширюваності, масштабованості, інтероперабельності, інтегрованості та надійності. УМ2.1. Розв’язувати задачі оптимізації при проектуванні систем моніторингу, а саме: математичні моделі, критерії оптимальності, обмеження; обирати раціональні методи та алгоритми розв’язання задач оптимізації та оптимального керування. УМ2.3. Вміти забезпечувати організацію обчислювальних процесів в інформаційних системах різного призначення з урахуванням архітектури, конфігурування, показників результативності функціонування операційних систем і системного програмного забезпечення. УМ2.4. Розробляти моделі аналітичних сховищ і просторів даних для створення інтелектуальних систем моніторингу. КОМ1. Уміння усної та письмової комунікації українською мовою. АіВ1. Здатність адаптуватися до нових умов.
Необхідні обов'язкові попередні та супутні навчальні дисципліни: Геоінформаційні системи і моніторинг навколишнього середовища Аналітичні сховища даних систем комп'ютерного моніторингу Технології розробки розподілених систем еколого-економічного моніторингу Проектування інформаційних управляючих систем екологічного моніторингу
Короткий зміст навчальної програми: Викладання дисципліни “Технології великих даних в системах комп'ютерного моніторингу” передбачає ознайомлення з теоретичними, методологічними та прикладними аспектами агрегації та інтегрування великих даних різних типів, проектування сховищ для зберігання великих даних, інтелектуальної обробки великих даних, візуалізації великих даних, отримання знання з великих даних Прикладні аспекти технологій великих даних вивчаються на основі хмарних платформ, зокрема, Google BigQuery, Apache Beam, Prophecy (чи аналогічних) та класичних бібліотек для роботи з даними (Pandas) і відкритих даних комп’ютерного моніторингу (еколого-економічного, медичного, соціального та ін.). Предметом вивчення навчальної дисципліни є великі дані, методи і засоби їх аналізу та обробки. Програма навчальної дисципліни складається з таких блоків змістовних модулів: 1. Основні положення концепції великих даних та їх моделі. 2. Технології, засоби обробки та візуалізації великих даних. 3. Інтелектуальний аналіз великих даних.
Опис: Тема 1. Еволюція концепції великих даних Концепція великих даних. Джерела і класифікація великих данич. Інтернет речей. Приклади великих даних. Приватність даних і соціально-економічний вплив результатів їх аналізу Тема 2. Особливості процесу обробки великих даних Відкриті дані та їх формати. Основні етапи процесу роботи з великими даними: постановка задачі, визначення даних, фільтрація, видобування, валідація та підготовка, аналіз, візуалізація. Системи для роботи з великими даними Тема 3. Моделі великих даних Тензорна модель. Модель великих даних “сутність-характеристика” Тема 4. Мови програмування та бібліотеки для роботи з великими даними Роль Python та R в аналізі даних. Типові бібліотеки для роботи з даними. Особливості мови Julia. Тема 5. Хмарні сховища та аналітичні платформи для великих даних Google BigQuery, Apache Beam, Prophecy, … Переваги та недоліки хмарних аналітичних платформ Тема 6. Технології Hadoop Big Data. Розподілена обробка MapReduce Масштабованість великих даних. Зберігання та оброблення даних в розподілених файлових системах. Розподілені бази даних. Розподілена файлова система Hadoop (HDFS). Тема 7. Розподілена потокова платформа Kafka Проблема прийому даних. Розподілена потокова платформа Kafka. Особливості Cassandra. Тема 8. Платформа Apache Spark Проблема обчислювальної функції. Технологія Spark. Порівняння Spark та MapReduce. Spark і sparklyr для роботи з великими даними в R. Тема 9. Lambda та Kappa архітектури оброблення великих даних Lambda - архітектура. Переваги і недоліки Lambda-архітектури. Kappa-архітектура. Переваги і недоліки Kappa-архітектури. Тема 10. Методи машинного навчання для обробки великих даних Основні види машинного навчання. Етапи аналізу даних методами машинного навчання. Масштабування ознак. Вибір моделі та способу її навчання. Методи оцінки моделей.
Методи та критерії оцінювання: Методи оцінювання рівня досягнення здобувачем результатів навчання передбачають: 1. Поточний контроль роботи здобувача: - тестове опитування; - індивідуальне усне опитування на лекціях; - виконання лабораторних робіт. 2. Підсумковий (заліковий) контроль: Складання залікового контролю передбачає виконання письмової та усної компонент. Письмова компонента включає завдання двох рівнів складності: - завдання 1-го рівня – тестові завдання; - завдання 2-го рівня – розв’язання тестових задач.
Критерії оцінювання результатів навчання: Поточний контроль (ПК)50 балів. Правильне і вчасне виконання лабораторних робіт – 30 балів (6 робіт по 5 балів). Тестування у ВНС – 20 балів (4 тести) Залікова контрольна - 50 балів, виставляється в результаті здійснення залікового контролю, який передбачає виконання письмової та усної компонент. Письмова компонента включає завдання першого і другого рівня складності у вигляді тестування. Усна компонента передбачає пояснення відповідей на задачі другого рівня, виконані у вигляді «есе».
Порядок та критерії виставляння балів та оцінок: 100–88 балів – («відмінно») виставляється за високий рівень знань (допускаються деякі неточності) навчального матеріалу компонента, що міститься в основних і додаткових рекомендованих літературних джерелах, вміння аналізувати явища, які вивчаються, у їхньому взаємозв’язку і роз витку, чітко, лаконічно, логічно, послідовно відповідати на поставлені запитання, вміння застосовувати теоретичні положення під час розв’язання практичних задач; 87–71 бал – («добре») виставляється за загалом правильне розуміння навчального матеріалу компонента, включаючи розрахунки , аргументовані відповіді на поставлені запитання, які, однак, містять певні (неістотні) недоліки, за вміння застосовувати теоретичні положення під час розв’язання практичних задач; 70 – 50 балів – («задовільно») виставляється за слабкі знання навчального матеріалу компонента, неточні або мало аргументовані відповіді, з порушенням послідовності викладення, за слабке застосування теоретичних положень під час розв’язання практичних задач; 49–26 балів – («не атестований» з можливістю повторного складання семестрового контролю) виставляється за незнання значної частини навчального матеріалу компонента, істотні помилки у відповідях на запитання, невміння застосувати теоретичні положення під час розв’язання практичних задач; 25–00 балів – («незадовільно» з обов’язковим повторним вивченням) виставляється за незнання значної частини навчального матеріалу компонента, істотні помилки у відповідях на запитання, невміння орієнтуватися під час розв’язання практичних задач, незнання основних фундаментальних положень.
Рекомендована література: 1. Технології оброблення великих даних: конспект лекцій з дисципліни «Технології оброблення великих даних» [Електронний ресурс] : навч. посіб. для студ. спеціальності 121 «Інженерія програмного забезпечення» (освітня програма «Інженерія програмного забезпечення мультимедійних та інформаційно-пошукових систем»)/ Л.М. Олещенко; КПІ ім. Ігоря Сікорського. – Електронні текстові дані (1 файл: 5,55 Мбайт). – Київ: КПІ ім. Ігоря Сікорського, 2021. –227 с. 2. Zgurovsky M.Z., Zaychenko Y.P. Big Data: Conceptual Analysis and Applications. Springer, 2020. – 298 p. 2. Олійник А. О. Інтелектуальний аналіз даних: навчальний посібник. — Запоріжжя : ЗНТУ, 2012. — 278 с. 3. Ситник В.Ф., Краснюк М.Т. Інтелектуальний аналіз даних (дейтамайнінг): Навч. пос. — К:КНЕУ,2007 — 376 с. 4. Tom White. Hadoop: The Definitive Guide. — O’Reilly, 2016. – 805p. 5. Rajkumar Buyya. Big Data. Principles and Paradigms. — Elsevier, 2016. – 496p. 6. Tigani, J., & Naidu, S. (2014). Google BigQuery Analytics. John Wiley & Sons.
Уніфікований додаток: Національний університет «Львівська політехніка» забезпечує реалізацію права осіб з інвалідністю на здобуття вищої освіти. Інклюзивні освітні послуги надає Служба доступності до можливостей навчання «Без обмежень», метою діяльності якої є забезпечення постійного індивідуального супроводу навчального процесу студентів з інвалідністю та хронічними захворюваннями. Важливим інструментом імплементації інклюзивної освітньої політики в Університеті є Програма підвищення кваліфікації науково-педагогічних працівників та навчально-допоміжного персоналу у сфері соціальної інклюзії та інклюзивної освіти. Звертатися за адресою: вул. Карпінського, 2/4, І-й н.к., кімн. 112 E-mail: nolimits@lpnu.ua Websites: https://lpnu.ua/nolimits https://lpnu.ua/integration
Академічна доброчесність: Політика щодо академічної доброчесності учасників освітнього процесу формується на основі дотримання принципів академічної доброчесності з урахуванням норм «Положення про академічну доброчесність у Національному університеті «Львівська політехніка» (затверджене вченою радою університету від 20.06.2017 р., протокол № 35).