Методи і засоби опрацювання Великих даних
Спеціальність: Аналіз даних (Data Science)
Код дисципліни: 7.124.03.E.017
Кількість кредитів: 5.00
Кафедра: Інформаційні системи та мережі
Лектор: д.т.н., професор Берко Андрій Юліанович
Семестр: 2 семестр
Форма навчання: денна
Завдання: володіння знаннями і розумінням наукових засад створення ресурсів Великих даних;
• здатність формувати теоретичні та практичні рішення із створення та наповнення ресурсів Великих даних;
• здатність використовувати знання та навички при написанні сценаріїв опрацювання ресурсів Великих даних;
Результати навчання: • володіння знаннями і розумінням наукових засад створення ресурсів Великих даних;
• здатність формувати теоретичні та практичні рішення із створення та наповнення ресурсів Великих даних;
• здатність використовувати знання та навички при написанні сценаріїв опрацювання ресурсів Великих даних;
• практичне застосовування знань при опрацюванні ресурсів Великих даних із використанням класифікації, кластеризацї, предиктивного аналізу, статистичного моделювання, прогнозування.
Необхідні обов'язкові попередні та супутні навчальні дисципліни: • Технології розподілених систем та паралельних обчислень
• Інтелектуальний аналіз даних
• Методи та засоби інженерії даних та знань
• Технології проектування систем бізнес-логіки
Короткий зміст навчальної програми: 1. Концепція Великих даних
Поняття та визначення Великих даних. Властивості Великих даних. Вимоги до Великих даних. Специфіка Великих даних. Класифікація великих даних. Структуровані дані. Джерела великих структурованих даних. Реляційні бази даних у великих даних. Неструктуровані дані. Джерела неструктурованих даних. Роль CMS в управлінні великими даними. Управління різнорідними даними. Інтеграція різних типів даних у середовище великих даних.
2. Еволюція Великих даних.
Еволюція управління даними.
Етап 1: Створення керованих структур даних
Етап 2: Керування веб-сайтами та контентом
Етап 3: Управління великими даними
Опрацювання великих обсягів даних на MainFrame. Передумови та чинники виникнення напряму Великих даних. Становлення та розвиток технологій Великих даних. Предметні області застосування великих даних. Сучасний стан та перспективи розвитку Великих даних.
3. Методики аналізу Великих даних.
A/B тестування. Класифікація. Кластерний аналіз. Краудсорсинг (відбір даних). Зміщування та інтеграція даних. Data mining. Визначення узгоджень(гармонійності) даних. Генетичні алгоритми. Машинне навчання. Опрацювання природної мови. Мережевий аналіз. Оптимізація. Розпізнавання шаблонів. Прогнозне моделювання. Регресійний аналіз. Опрацювання сигналів. Просторовий аналіз даних. Статистика. Імітаційне моделювання (Симуляція). Аналіз часових послідовностей. Вивчення асоціативних в'язків. Вивчення функціональних зав'язків. Вивчення прихованих в'язків.
4. Технології управління Великих даних
Операційні бази даних. Реляційні СУБД у середовищі великих даних (реляційна база даних - SQL).
Нереляційні СУБД (Бази даних ключ-значення. Бази даних документів. Стовпчикові бази даних. Графічні бази даних. Просторові бази даних ) .
Спеціалізовані сховища Великих даних.
Потокові дані.
5. Модель обчислень MapReduce
Парадигма MapReduce. Походження MapReduce.
Принципи функції Map. Принципи функції Reduce. Поєднання функцій Map і Reduce.
Оптимізація задач MapReduce. Обладнання / мережева топологія. Синхронізація даних
Файлова система MapReduce.
6. Засоби опрацювання Великих даних
Система опрацювання великих даних Hadoop. Принципи роботи Hadoop. Розподілена файлова система Hadoop (HDFS). Вершини імен HDFS. Подання даних HDFS. Hadoop і MapReduce. Екосистема Hadoop . Створення ресурсу великих даних з екосистемою Hadoop
Засіб управління ресурсами та додатками Hadoop YARN. Засіб зберігання великих даних HBase. Дослідження великих даних Hive.
7. Аналітика великих даних
Визначення аналізу великих даних. Використання великих даних для отримання результатів.
Основна аналітика. Розширені аналітики. Оперативна аналітика. Описова (дескриптивна) аналітика. Прогнозна (предиктивна) аналітика. Рекомендаційна (прескриптивна) аналітика. Монетизація аналітики
8. Застосування Великих даних у предметних областях.
Екологічний моніторинг. Соціальні процеси. Державне управління. Маркетинг. Торгівля. Е-комерція. Медицина. Біржова діяльність. Політика.
Опис: • Поточний контроль (40%): письмові звіти з лабораторних робіт, реферат, усне опитування
• Підсумковий контроль (60%, екзамен): письмово-усна форма.
Методи та критерії оцінювання: • Поточний контроль (40%): письмові звіти з лабораторних робіт, реферат, усне опитування
• Підсумковий контроль (60%, екзамен): письмово-усна форма.
Критерії оцінювання результатів навчання: • Поточний контроль (40%): письмові звіти з лабораторних робіт, реферат, усне опитування
• Підсумковий контроль (60%, екзамен): письмово-усна форма.
Порядок та критерії виставляння балів та оцінок: 100–88 балів – («відмінно») виставляється за високий рівень знань (допускаються деякі неточності) навчального матеріалу компонента, що міститься в основних і додаткових рекомендованих літературних джерелах, вміння аналізувати явища, які вивчаються, у їхньому взаємозв’язку і роз витку, чітко, лаконічно, логічно, послідовно відповідати на поставлені запитання, вміння застосовувати теоретичні положення під час розв’язання практичних задач; 87–71 бал – («добре») виставляється за загалом правильне розуміння навчального матеріалу компонента, включаючи розрахунки , аргументовані відповіді на поставлені запитання, які, однак, містять певні (неістотні) недоліки, за вміння застосовувати теоретичні положення під час розв’язання практичних задач; 70 – 50 балів – («задовільно») виставляється за слабкі знання навчального матеріалу компонента, неточні або мало аргументовані відповіді, з порушенням послідовності викладення, за слабке застосування теоретичних положень під час розв’язання практичних задач; 49–26 балів – («не атестований» з можливістю повторного складання семестрового контролю) виставляється за незнання значної частини навчального матеріалу компонента, істотні помилки у відповідях на запитання, невміння застосувати теоретичні положення під час розв’язання практичних задач; 25–00 балів – («незадовільно» з обов’язковим повторним вивченням) виставляється за незнання значної частини навчального матеріалу компонента, істотні помилки у відповідях на запитання, невміння орієнтуватися під час розв’язання практичних задач, незнання основних фундаментальних положень.
Рекомендована література: 1. White, Tom // Hadoop: The Definitive Guide // O'Reilly Media, 2009.
2. Hadoop. Apache Software Foundation // http://hadoop.apache.org/
3. Finley, Klint // Steve Ballmer on Microsoft's Big Data Future and More in This Week's Business Intelligence Roundup // ReadWriteWeb, 2011.
4. Fay Chang, Jeffrey Dean, Sanjay Ghemawat & etc. // Bigtable: A Distributed Storage System for Structured Data // Google Lab, 2006.
5. Сухорослов, O. // Новые технологии распределенного хранения и обработки больших массивов данных // Институт системного анализа РАН, 2008.
6. Jeffrey Dean, Sanjay Ghemawat // MapReduce: Simplified Data Processing on Large Clusters // Google Inc., 2004.
7. Judy Qiu // Cloud Technologies and Their Applications // Indiana University Bloomington, 2010
8. The Hadoop Distributed File System: Architecture and Design // http://hadoop.apache.org/common/docs/r0.17.2/hdfs_design.html
10. Ralf Lammel // Google’s MapReduce Programming Model — Revisited // Microsoft Corp.
Уніфікований додаток: Національний університет «Львівська політехніка» забезпечує реалізацію права осіб з інвалідністю на здобуття вищої освіти. Інклюзивні освітні послуги надає Служба доступності до можливостей навчання «Без обмежень», метою діяльності якої є забезпечення постійного індивідуального супроводу навчального процесу студентів з інвалідністю та хронічними захворюваннями. Важливим інструментом імплементації інклюзивної освітньої політики в Університеті є Програма підвищення кваліфікації науково-педагогічних працівників та навчально-допоміжного персоналу у сфері соціальної інклюзії та інклюзивної освіти. Звертатися за адресою:
вул. Карпінського, 2/4, І-й н.к., кімн. 112
E-mail: nolimits@lpnu.ua
Websites: https://lpnu.ua/nolimits https://lpnu.ua/integration
Академічна доброчесність: Політика щодо академічної доброчесності учасників освітнього процесу формується на основі дотримання принципів академічної доброчесності з урахуванням норм «Положення про академічну доброчесність у Національному університеті «Львівська політехніка» (затверджене вченою радою університету від 20.06.2017 р., протокол № 35).