Дослідження методів редукції даних в інфокомунікаційних системах

Автор: Косолович Вікторія Василівна
Кваліфікаційний рівень: магістр
Спеціальність: Системне адміністрування телекомунікаційних мереж
Інститут: Інститут телекомунікацій, радіоелектроніки та електронної техніки
Форма навчання: денна
Навчальний рік: 2021-2022 н.р.
Мова захисту: українська
Анотація: Big Data – це концепція широкого діапазону даних, яка створюється щодня. За останні роки обробка цих даних є найбільшою проблемою. Дві основні концепції hadoop - це розподілена файлова система (HDFS) Mapreduce і Hadoop. HDFS - це ме- ханізм зберігання, а mapreduce - мова програмування. Результати обробляються швидше, ніж інші традиційні операції з базою даних. Pig і Hive — це дві мови, які допомагають нам програмувати фреймворк mapreduce за короткий період часу. Принцип роботи аналізу Big Data відрізняється від традиційних концепцій си- стем зберігання даних чи бізнес-аналітики. Аналіз «великих даних» є за своєю сутністю новим підходом до інформаційного менеджменту: створення нової ком- плексної структури (архітектури) аналізу. Вона передбачає розподіл функцій збору, зберігання та аналізу даних між декількома програмами-виконавцями, що функціонують відповідно до алгоритмів, закладених контрольними модулями. Великі дані містять структуровані та неструктуровані дані. Структуровані дані складаються з даних у текстовому та табличному форматі. Завдяки цьому їх можна легко структурувати та обробляти за допомогою інструмента для аналізу даних. Не- структуровані дані не мають ідентифікованої внутрішньої структури, тому обробка цих даних із традиційної бази даних неможлива. Big Data має кілька характеристик. Різноманітність посилається до різних форматів даних. Наприклад, розглянемо: банківську операцію, при цьому тут різно- манітністю є чек, банкомат, платіжна картка тощо. Velocity означає швидкість виро- бництва даних з різної техніки, сенсорів, файлів журналу тощо. Складність в цьому є правильність поводження з великим обсягом даних. Big Data поєднують релевантну та точну інформацію з кількох джерел, щоб найточніше описати ситуацію на ринку. Аналізуючи інформацію із соціальних ме- реж та пошукових запитів, компанії оптимізують стратегії цифрового маркетингу та досвід споживачів. Наприклад, відомості про рекламні акції всіх конкурентів дозво- ляють керівництво фірми запропонувати більш вигідний «персональний» підхід клієнту. Важливість великих даних не залежить лише від того, скільки даних у вас є. Цінність полягає в тому, як ви його використовуєте. Беручи дані з будь-якого джерела та аналізуючи їх, ви можете знайти відповіді, які спрощують управління ре- сурсами, підвищують ефективність операцій, оптимізують розробку продукту, ство- рюють нові можливості для прибутку та зростання та дозволяють приймати розумні рішення. Великі дані найчастіше зберігаються в комп’ютерних базах даних і аналізу- ються за допомогою програмного забезпечення, спеціально розробленого для робо- ти з великими, складними наборами даних. Багато компаній, що пропону- ють програмне забезпечення як послуга (SaaS), спеціалізуються на управлінні цим типом складних даних. Big Data – це масиви різнопланової інформації, яка часто генерується, оновлюється та надається кількома джерелами. Це використовують сучасні ком- панії, щоб працювати більш ефективно, створювати нові продукти і, зрештою, ста- вати більш конкурентоспроможними. Великі дані накопичуються щомиті – навіть зараз, коли ви читаєте цю статтю, хтось збирає інформацію про ваші уподобання та дії у браузері. Більшість компаній використовують Big Data для покращення клієнтського сервісу, інші – для покращення операційних даних та для прогнозуван- ня ризиків. Незважаючи на те, що досвіду практичного застосування Bіg Data у сфері сервісу, у маркетингу поки накопичено не багато, інтерес до проектів у цій області постійно росте. Регулярно з’являються повідомлення про успішне застосування тех- нологій Bіg Data інноваційними компаніями для розв’язку різних завдань підвищен- ня конкурентоспроможності, створення нових сервісів, удосконалювання управлін- ня взаємодії із клієнтами. Таким чином, завданням було провести дослідження методів роботи з велики- ми даними, проаналізувати технології роботи з Big Data та модель MapReduce, визначити переваги та недоліки Big Data.