Інтелектуальна система обробки різнотипових даних для центру зайнятості
Автор: Ткачук Назар Вікторович
Кваліфікаційний рівень: магістр
Спеціальність: Системи штучного інтелекту
Інститут: Інститут комп'ютерних наук та інформаційних технологій
Форма навчання: денна
Навчальний рік: 2020-2021 н.р.
Мова захисту: українська
Анотація: Обсяг магістерської кваліфікаційної роботи складає 44 сторінки, зокрема 15 ілюстрації, 2 таблиці та 19 джерел інформації. У першому розділі зроблено огляд літературних джерел, приведено короткий історичний опис розвитку та роль даних у різних галузях. Було розглянуто відмінності між традиційним аналізом даних та аналізом Великих даних, зроблено порівняльну табличку. Також проведений аналіз методів класифікації та описано їхні недоліки та переваги. Другий розділ складається з двох частин. В першій представлено алгоритм k-найближчих сусідів. У другій міститься опис парадигми MapReduce та спосіб її використання у контексті даної роботи. Тема класифікації великих обсягів даних стає необхідним завданням у великій кількості реальних додатків. Відомо, що при класифікації Великих даних, стандартні методи обробки даних, як правило, не справляються з таким обсягом даних. У розділі описано MapReduce підхід для k-Nearest neighbor класифікації. Ця модель дозволяє нам одночасно класифікувати певні елементи (тест прикладів) проти великого (навчального) набору даних. Для цього map-фаза визначатиме k-nearest neighbors у різних розділах даних. Згодом, стадія зменшення обчислює остаточних сусідів зі списку, отриманих на map-фазі. Спроектована модель дозволяє k-Nearest neighbor класифікатору масштабуватись до наборів даних довільного розміру, просто додавши більше обчислювальних вузлів, якщо необхідно. Більше того, це паралельне виконання забезпечує точний коефіцієнт класифікації, так само як оригінальна модель k-NN. У останньому розділі, розділі результатів, показано дві розроблені програми, а саме - програма для опрацювання даних за допомогою вищезгаданої технології та мобільний додаток для центру зайнятості, завдання якого - допомогти персоналу здійснити тестування м’яких навичок кандидатів та отримати потрібні дані кожного з них для наступної обробки. Приведено скріншоти обох програма для аналізу результату. Підсумовуючи, варто зробити висновок, що обробка великих даних є менш трудомісткою з технологією MapReduce та Hadoop, в порівнянні з традиційним аналізом даних. Та в контексті класифікації даних це хороше поєднання.