Дослідження ефективності використання розподілених баз даних для оброблення запитів користувачів
Автор: Сорока Владислав Ігорович
Кваліфікаційний рівень: магістр
Спеціальність: Інформаційні мережі зв'язку
Інститут: Інститут телекомунікацій, радіоелектроніки та електронної техніки
Форма навчання: денна
Навчальний рік: 2021-2022 н.р.
Мова захисту: українська
Анотація: Ефективне оброблення запитів користувачі в інфокомунікаційних систем є однією з найважливіших завдань, що необхідно вирішити якнайскоріше. Оскільки, враховуючи пандемічну ситуацію, багато галузей нашого життя почали функціонувати онлайн, різко збільшився обсяг трафіку в інформаційних системах, дані стали більш різноманітними, тому їх важче обробляти. Бази даних повинні забезпечувати моментальний доступ до необхідної інформації, при цьому опрацьовуючи щосекунди величезну кількість запитів. Внаслідок перенавантаження окремих серверів може виникнути ситуація, коли певна частина запитів втрачається. Інша частина змушена довший проміжок часу очікувати на обслуговування. Така ситуація часто негативно впливає на якість надання послуг та сприяє тому, шо користувачі, розчаровані рівнем обслуговування, просто покидають сайт чи сервіс, не оформивши замовлення та не дізнавшись потрібної інформації [1]. Для ефективного функціонування інфокомунікаційних систем постійно використовуються та впроваджуються нові методи оброблення даних. Якщо колись достатньо було використати надпотужний пристрій для обчислень, то тепер, враховуючи стрімке зростання інформації, що потребує оброблення, необхідно використовувати розподілену архітектуру інфокомунікаційних систем. В розподілених системах використовуються декілька пристроїв, які працюють паралельно над однією задачею. Такий підхід дозволяє зменшити навантаження на один пристрій, підвищити надійність і відмовостійкість системи в цілому [2]. При організації роботи баз даних також необхідно впроваджувати розподілені технології, щоб впоратися з високим навантаженням. Розподілені бази даних містять певну множину пристроїв зберігання даних. В залежності від масштабу інфокомунікаційної системи, цих пристроїв може бути від декількох одиниць до декількох сотень. Всі бази даних повинні мати чітку координацію між собою. Інформація, яка записується, може бути розподілена між декількома пристроями. Тоді одна частина знаходиться в одній базі даних, інші є розподіленими в наступних. Такий підхід дозволяє підвищити надійність зберігання даних. Коли виходить з ладу один пристрій, інформація не втрачається повністю. Також безсумнівною перевагою розподіленого опрацювання даних є можливість одночасного доступу до них різних запитів. Інформація є розподіленою між декількома пристроями. Часто дані також дублюються, для того, щоб забезпечити додаткову безпеку чи доступ до них. До прикладу, якщо декілька користувачів надсилають запит на отримання одного і того ж запиту, то у випадку застосування звичайних нерозподілених систем, одночасно отримав доступ до нього тільки один. Всі інші користувачі інформаційної системи змушені були б стати в чергу. Для розподілених систем баз даних кожен користувач може отримати частину запиту одразу, оскільки він розташований на декількох пристроях. Коли звільняться інші частини, вони також будуть надані користувачеві [3]. Іншою безсумнівною перевагою розподілених систем є їх висока, в порівнянні з нерозподіленими, надійність і відмовостійкість. Коли в звичайній нерозподіленій системі вся інформація розташована на одному пристрої, у випадку його пошкодження чи виході з ладу вона одразу втрачається. Для розподілених систем ця проблема не є суттєвою, оскільки дані розподілені на декількох пристроях. У випадку виходу з ладу одного пристрою залишаються робочими інші. Тому підвищується надійність зберігання інформації. Також часто дані дублюються та зберігаються на декількох пристроях. Це також зменшує небезпеку повної втрати важливої інформації та, як зазначалося вище, дозволяє одночасну роботу з нею різними користувачами [4]. Безпека розподілених інфокомунікаційних систем є важливим питанням, яке доцільно враховувати при їх проектуванні та експлуатації. Оскільки всі дані знаходяться на різних пристроях, а не на одному, то потрібно використовувати спеціальні захищені методи передавання інформації, Під час процесу пошуку інформації, оброблення та передавання також слід постійно підтримувати комунікацію між пристроями. Тому слід забезпечити захист даних від можливого перехоплення чи пошкодження сторонніми особами. Як варіанти можливого захисту від інформації використовують алгоритми шифрування даних, приховування їх від можливих загроз, дублювання тощо. Також застосовуються методи захисту каналу зв’язку, щоб ускладнити доступ до інформації, яка ним передається [5]. Іншою особливістю великомасштабних баз даних є той факт, що часто навантаження на систему постійно змінюється. Зазвичай у період часу, коли інтенсивність трафіку зменшується, частина обчислювальної потужності простоює. Це спричиняє нераціональне використання ресурсів та значні економічні втрати. Тому доцільно використовувати хмарну інфраструктуру баз даних [6]. В такому випадку всі сервери розміщені в різних куточках світу. Це дозволяє швидко їх виводити з експлуатації в разі необхідності. Також широко застосовуються спеціальні системи моніторингу та аналізу стану розподілених систем, що працюють на основі технологій машинного навчання та штучного інтелекту [7]. Завдяки подібним системам можна швидко виявити можливу аварійну ситуацію та передбачити її. Отже, системи розподіленої обробки даних мають чимало переваг та відкривають перспективу їх подальшого дослідження та використання. Об’єкт дослідження – Розподілена обробка інформації в базах даних Сфера дослідження – Методи і способи розподіленої обробки даних Мета дослідження: Дослідження методів та способів використання технології Apache Spark для підвищення ефективності розподіленої обробки запитів від користувачів у базах даних Ключові слова: бази даних, розподілені обчислення, обробка запитів