Методи і засоби опрацювання Великих даних
Спеціальність: Аналіз даних (Data Science)
Код дисципліни: 7.124.03.E.015
Кількість кредитів: 5.00
Кафедра: Інформаційні системи та мережі
Лектор: д.т.н., професор Берко Андрій Юліанович
Семестр: 2 семестр
Форма навчання: денна
Завдання: володіння знаннями і розумінням наукових засад створення ресурсів Великих даних;
• здатність формувати теоретичні та практичні рішення із створення та наповнення ресурсів Великих даних;
• здатність використовувати знання та навички при написанні сценаріїв опрацювання ресурсів Великих даних;
Результати навчання: • володіння знаннями і розумінням наукових засад створення ресурсів Великих даних;
• здатність формувати теоретичні та практичні рішення із створення та наповнення ресурсів Великих даних;
• здатність використовувати знання та навички при написанні сценаріїв опрацювання ресурсів Великих даних;
• практичне застосовування знань при опрацюванні ресурсів Великих даних із використанням класифікації, кластеризацї, предиктивного аналізу, статистичного моделювання, прогнозування.
Необхідні обов'язкові попередні та супутні навчальні дисципліни: • Технології розподілених систем та паралельних обчислень
• Інтелектуальний аналіз даних
• Методи та засоби інженерії даних та знань
• Технології проектування систем бізнес-логіки
Короткий зміст навчальної програми: 1. Концепція Великих даних
Поняття та визначення Великих даних. Властивості Великих даних. Вимоги до Великих даних. Специфіка Великих даних. Класифікація великих даних. Структуровані дані. Джерела великих структурованих даних. Реляційні бази даних у великих даних. Неструктуровані дані. Джерела неструктурованих даних. Роль CMS в управлінні великими даними. Управління різнорідними даними. Інтеграція різних типів даних у середовище великих даних.
2. Еволюція Великих даних.
Еволюція управління даними.
Етап 1: Створення керованих структур даних
Етап 2: Керування веб-сайтами та контентом
Етап 3: Управління великими даними
Опрацювання великих обсягів даних на MainFrame. Передумови та чинники виникнення напряму Великих даних. Становлення та розвиток технологій Великих даних. Предметні області застосування великих даних. Сучасний стан та перспективи розвитку Великих даних.
3. Методики аналізу Великих даних.
A/B тестування. Класифікація. Кластерний аналіз. Краудсорсинг (відбір даних). Зміщування та інтеграція даних. Data mining. Визначення узгоджень(гармонійності) даних. Генетичні алгоритми. Машинне навчання. Опрацювання природної мови. Мережевий аналіз. Оптимізація. Розпізнавання шаблонів. Прогнозне моделювання. Регресійний аналіз. Опрацювання сигналів. Просторовий аналіз даних. Статистика. Імітаційне моделювання (Симуляція). Аналіз часових послідовностей. Вивчення асоціативних в'язків. Вивчення функціональних зав'язків. Вивчення прихованих в'язків.
4. Технології управління Великих даних
Операційні бази даних. Реляційні СУБД у середовищі великих даних (реляційна база даних - SQL).
Нереляційні СУБД (Бази даних ключ-значення. Бази даних документів. Стовпчикові бази даних. Графічні бази даних. Просторові бази даних ) .
Спеціалізовані сховища Великих даних.
Потокові дані.
5. Модель обчислень MapReduce
Парадигма MapReduce. Походження MapReduce.
Принципи функції Map. Принципи функції Reduce. Поєднання функцій Map і Reduce.
Оптимізація задач MapReduce. Обладнання / мережева топологія. Синхронізація даних
Файлова система MapReduce.
6. Засоби опрацювання Великих даних
Система опрацювання великих даних Hadoop. Принципи роботи Hadoop. Розподілена файлова система Hadoop (HDFS). Вершини імен HDFS. Подання даних HDFS. Hadoop і MapReduce. Екосистема Hadoop . Створення ресурсу великих даних з екосистемою Hadoop
Засіб управління ресурсами та додатками Hadoop YARN. Засіб зберігання великих даних HBase. Дослідження великих даних Hive.
7. Аналітика великих даних
Визначення аналізу великих даних. Використання великих даних для отримання результатів.
Основна аналітика. Розширені аналітики. Оперативна аналітика. Описова (дескриптивна) аналітика. Прогнозна (предиктивна) аналітика. Рекомендаційна (прескриптивна) аналітика. Монетизація аналітики
8. Застосування Великих даних у предметних областях.
Екологічний моніторинг. Соціальні процеси. Державне управління. Маркетинг. Торгівля. Е-комерція. Медицина. Біржова діяльність. Політика.
Опис: • Поточний контроль (40%): письмові звіти з лабораторних робіт, реферат, усне опитування
• Підсумковий контроль (60%, екзамен): письмово-усна форма.
Методи та критерії оцінювання: • Поточний контроль (40%): письмові звіти з лабораторних робіт, реферат, усне опитування
• Підсумковий контроль (60%, екзамен): письмово-усна форма.
Критерії оцінювання результатів навчання: • Поточний контроль (40%): письмові звіти з лабораторних робіт, реферат, усне опитування
• Підсумковий контроль (60%, екзамен): письмово-усна форма.
Порядок та критерії виставляння балів та оцінок: 100-88 балів - атестований з оцінкою «відмінно» - Високий рівень: здобувач освіти демонструє поглиблене володіння поняттєвим та категорійним апаратом навчальної дисципліни, системні знання, вміння і навички їх практичного застосування. Освоєні знання, вміння і навички забезпечують можливість самостійного формулювання цілей та організації навчальної діяльності, пошуку та знаходження рішень у нестандартних, нетипових навчальних і професійних ситуаціях. Здобувач освіти демонструє здатність робити узагальнення на основі критичного аналізу фактичного матеріалу, ідей, теорій і концепцій, формулювати на їх основі висновки. Його діяльності ґрунтується на зацікавленості та мотивації до саморозвитку, неперервного професійного розвитку, самостійної науково-дослідної діяльності, що реалізується за підтримки та під керівництвом викладача. 87-71 балів - атестований з оцінкою «добре» - Достатній рівень: передбачає володіння поняттєвим та категорійним апаратом навчальної дисципліни на підвищеному рівні, усвідомлене використання знань, умінь і навичок з метою розкриття суті питання. Володіння частково-структурованим комплексом знань забезпечує можливість їх застосування у знайомих ситуаціях освітнього та професійного характеру. Усвідомлюючи специфіку задач та навчальних ситуацій, здобувач освіти демонструє здатність здійснювати пошук та вибір їх розв’язання за поданим зразком, аргументувати застосування певного способу розв’язання задачі. Його діяльності ґрунтується на зацікавленості та мотивації до саморозвитку, неперервного професійного розвитку. 70-50 балів - атестований з оцінкою «задовільно» - Задовільний рівень: окреслює володіння поняттєвим та категорійним апаратом навчальної дисципліни на середньому рівні, часткове усвідомлення навчальних і професійних задач, завдань і ситуацій, знання про способи розв’язання типових задач і завдань. Здобувач освіти демонструє середній рівень умінь і навичок застосування знань на практиці, а розв’язання задач потребує допомоги, опори на зразок. В основу навчальної діяльності покладено ситуативність та евристичність, домінування мотивів обов’язку, неусвідомлене застосування можливостей для саморозвитку. 49-00 балів - атестований з оцінкою «незадовільно» - Незадовільний рівень: свідчить про елементарне володіння поняттєвим та категорійним апаратом навчальної дисципліни, загальне уявлення про зміст навчального матеріалу, часткове використання знань, умінь і навичок. В основу навчальної діяльності покладено ситуативно-прагматичний інтерес.
Рекомендована література: 1. White, Tom // Hadoop: The Definitive Guide // O'Reilly Media, 2009.
2. Hadoop. Apache Software Foundation // http://hadoop.apache.org/
3. Finley, Klint // Steve Ballmer on Microsoft's Big Data Future and More in This Week's Business Intelligence Roundup // ReadWriteWeb, 2011.
4. Fay Chang, Jeffrey Dean, Sanjay Ghemawat & etc. // Bigtable: A Distributed Storage System for Structured Data // Google Lab, 2006.
5. Сухорослов, O. // Новые технологии распределенного хранения и обработки больших массивов данных // Институт системного анализа РАН, 2008.
6. Jeffrey Dean, Sanjay Ghemawat // MapReduce: Simplified Data Processing on Large Clusters // Google Inc., 2004.
7. Judy Qiu // Cloud Technologies and Their Applications // Indiana University Bloomington, 2010
8. The Hadoop Distributed File System: Architecture and Design // http://hadoop.apache.org/common/docs/r0.17.2/hdfs_design.html
10. Ralf Lammel // Google’s MapReduce Programming Model — Revisited // Microsoft Corp.
Уніфікований додаток: Національний університет «Львівська політехніка» забезпечує реалізацію права осіб з інвалідністю на здобуття вищої освіти. Інклюзивні освітні послуги надає Служба доступності до можливостей навчання «Без обмежень», метою діяльності якої є забезпечення постійного індивідуального супроводу навчального процесу студентів з інвалідністю та хронічними захворюваннями. Важливим інструментом імплементації інклюзивної освітньої політики в Університеті є Програма підвищення кваліфікації науково-педагогічних працівників та навчально-допоміжного персоналу у сфері соціальної інклюзії та інклюзивної освіти. Звертатися за адресою:
вул. Карпінського, 2/4, І-й н.к., кімн. 112
E-mail: nolimits@lpnu.ua
Websites: https://lpnu.ua/nolimits https://lpnu.ua/integration
Академічна доброчесність: Політика щодо академічної доброчесності учасників освітнього процесу формується на основі дотримання принципів академічної доброчесності з урахуванням норм «Положення про академічну доброчесність у Національному університеті «Львівська політехніка» (затверджене вченою радою університету від 20.06.2017 р., протокол № 35).