Використання автоматизованого тестування та веб-скрапінгу для автоматичного збору та аналізу реальних даних з веб-ресурсів

Автор: Тисовський Володимир Мар'янович
Кваліфікаційний рівень: магістр
Спеціальність: Інформаційні технології проектування
Інститут: Інститут комп'ютерних наук та інформаційних технологій
Форма навчання: денна
Навчальний рік: 2023-2024 н.р.
Мова захисту: українська
Анотація: Тисовський В.М., Матвійків О.М. (керівник). : Використання автоматизованого тестування та веб-скрапінгу для автоматичного збору та аналізу реальних даних з веб-ресурсів. Магістерська кваліфікаційна poбoта. – Національний університет «Львівська політехніка», Львів, 2023. Розширена анотація У розділі №1 був проведений аналіз предметної області, зокрема, вивчено важливість, особливості та правові аспекти програм веб-скраперів. Також розглянуті схожі системи, які надають схожий функціонал, описано переваги й недоліки. У завершальному підрозділі розглянуто деталізацію завдань розробки системи. У розділі №2 представлені та описані переваги інструментів, використовуваних при розробці даної системи. Для втілення вимог системи було вирішено використовувати фреймворк Selenium, з мовою програмування Java, для збереження даних – формат файлу CSV, для візуалізації даних – Grafana, для аналізу отриманих даних було вирішено використати мову програмування Python та бібліотеку Sklearn. Було використано такі шаблони проектування як Page Object, DTO (data transfer object) У розділі №3 було виконано розроблення вимог до системи та її компонентів. Представлена структура програми веб-скрапера, надані детальні описи компонентів проекту, Також продемонстровано роботу веб-застосунку, відображено всі його можливості та результати роботи. У заключенні подано перспективи розвитку веб-застосунку. Метою магістерської роботи є розробка за допомогою автоматизованого тестування програмного компоненту веб-скрапінгу для автоматичного збору та аналізу реальних даних з веб-ресурсів. У цій роботі необхідно вирішити кілька ключових завдань: Аналіз методів і алгоритмів веб-додатків. поглиблене вивчення сучасних методів і алгоритмів, які використовуються для розробки веб-додатків, особливо з огляду на те, як вони використовуються в сфері розробки веб-скраперів. Огляд сучасних онлайн-додатків у подібній галузі. Комплексний огляд і порівняння існуючих веб-додатків які здійснюють збіг даних з веб-сторінок для визначення найбільш ефективних і інноваційних рішень. Розробка компонентів веб-скрапера, написати власне програмне рішення для роботи з конкретним веб-ресурсом для збору даних щоб забезпечити швидкість та надійність роботи, точність отриманих даних. Об’єкт дослідження – розгляд підходів для створення веб-застосунків. Дослідження, щодо наявних рішень побудови веб-додатків за тематикою системи збору даних, аналіз щодо потенційних вдосконалень для полегшення роботи з ними. Предмет дослідження – створення веб-застосунку (скрапера) для автоматичного збору та аналізу даних Практична цінність роботи – полягає у створенні автоматизованої системи збору, відображення на аналізу даних, яка може бути розширена для взаємодії з будь-якими веб-ресурсами. Ключові слова: JAVA, SELENIUM, WEB-SCRAPPING, GRAFANA, DATA CLUSTERING 1. KHDER, Moaiad Ahmad. Web Scraping or Web Crawling: State of Art, Techniques, Approaches and Application. International Journal of Advances in Soft Computing & Its Applications, 2021, 13.3. 2. KARTHIKEYAN, T., et al. Personalized content extraction and text classification using effective web scraping techniques. International Journal of Web Portals (IJWP), 2019, 11.2: 41-52. 3. KARTHIKEYAN, T., et al. Personalized content extraction and text classification using effective web scraping techniques. International Journal of Web Portals (IJWP), 2019, 11.2: 41-52.