Дослідження кластеризації великих даних у комерційних системах

Автор: Ланчевич Руслан Орестович
Кваліфікаційний рівень: магістр
Спеціальність: Системне адміністрування телекомунікаційних мереж
Інститут: Інститут телекомунікацій, радіоелектроніки та електронної техніки
Форма навчання: заочна
Навчальний рік: 2022-2023 н.р.
Мова захисту: українська
Анотація: Розміри даних, що потрібно обробити, щомиті зростають. Зміна застарілих технологій новими та більш інтелектуальними сприяє наданню нових послуг користувачам. Якщо раніше телефон був лише засобом спілкування, то зараз це повноцінний персональний комп’ютер, який містить багато приватної інформації про власника. Інноваційні хмарні технології дозволяють зберігати та обробляти дані на віддалених ресурсах, користуватися орендованими сервісами та ділитися своїми результатами з іншими. Соціальні мережі також давно стали важливою складовою частиною життя людини. Не тільки окремі люди, а й цілі підприємства розміщують дані про власну діяльність, таким чином взаємодіючи з аудиторією. Зрозуміло, що інформація від різних джерел може бути різного типу. Рейтинг книги на веб-сайті є прикладом числових даних. Відгук на товар чи електронний лист представляють собою текстові дані. Пост в соціальній мережі може бути зображенням яке, однак, містить певну інформацію [1,2]. Якість обслуговування користувачів в сучасних інформаційних системах є дуже важливою задачею, для вирішення якої витрачаються значні ресурси. Оскільки клієнти, які користуються певними додатками чи послугами веб-сервісів, не будуть очікувати тривалий час на виконання власних запитів, повільне оброблення даних спричинить спад зацікавленості в користуванні таким видом продукції. Висока конкуренція на ринку додатків вимагає застосування найсучасніших технологій для вдосконалення їх функцій. Цифровізація різних сфер життя також зумовила створення інформаційних систем для виконання завдань, які раніше виконувалися людиною [3]. Машинне навчання використовує набори даних, які дозволяють навчитися вирішувати певні задачі. На вході алгоритму подаються навчальні послідовності, які машина повинна використовувати для формування правильного результату на виході. Можливість самостійного корегування роботи алгоритму машинного навчання сприяє підвищенню точності обробки інформації. Навчання може відбуватися як під наглядом, коли визначаються дані, що повинні бути на виході моделі, так і більш самостійно. Таким чином, система сама намагається визначити оптимальні параметри, при яких задачі найкраще виконуються. Підбір найбільш відповідних значень для навчання моделі часто відбувається ітеративно. При цьому дані з виходу системи передаються на вхід для корекції результатів попередньої ітерації. Машинне навчання дозволяє інформаційним системам швидше і надійніше опрацьовувати великі масиви даних, знаходити закономірності та комунікувати з користувачами. Різноманітність послуг, що надають сучасні обчислювальні системи, визначає значні обсяги інформації, які необхідно опрацювати [4,5]. Складністю роботи методів обробки великих даних є їх різноманітність та неструктурованість. Навіть для порівняльно невеликих масивів інформації виникає проблема її представлення у вигляді, зручному для сприйняття кінцевому користувачеві. Використовуються різноманітні методи та засоби оптимізації даних. При цьому визначаються найважливіші, інформація групується для зручнішого подальшого опрацювання. Кластеризація даних розподіляє їх на різні групи, залежно від приналежності до того чи іншого класу за ознаками, що важливі при вирішенні поставлених завдань. Масиви інформації, що надходять від різних користувачів, доцільно розділити на групи, що містять схожі елементи. Таким чином, до прикладу, дописи в соцмережах становлять інший тип даних, ніж статистика продажів товарів. Виокремивши всі типи даних, можна застосовувати найоптимальніший метод оброблення. Завдяки своєчасному підбору інструментів роботи з конкретним набором інформації, витрачається менше обчислювальних ресурсів. Кластерний аналіз покращує ефективність оброблення даних від користувачів, дозволяє просто і надійно проводити машинне навчання на основі підготованої інформації. Визначення груп даних за окремою тематикою сприяє точності подальшого аналізу та врахування їх специфічних ознак [6,7]. Розподіл інформації на підмножини показує її різноманітність і дозволяє зменшувати розмірність даних. Таким чином, кластеризація великих даних в інформаційних системах є дуже актуальною для сьогодення темою. Об’єкт дослідження – Кластеризація великих даних. Сфера дослідження – Методи і способи кластеризації даних. Мета дослідження: Дослідження методів та способів кластеризації великих обсягів інформації для підвищення ефективності роботи інфокомунікаційних систем.