Система аналізу та розпізнавання звуків в мегаполісі

Автор: Тчинецький Степан Андрійович
Кваліфікаційний рівень: магістр
Спеціальність: Аналіз даних (Data Science)
Інститут: Інститут комп'ютерних наук та інформаційних технологій
Форма навчання: денна
Навчальний рік: 2023-2024 н.р.
Мова захисту: українська
Анотація: В сучасних мегаполісах, де шум і гам ніколи не припиняються, виникає важлива проблема розпізнавання звуків. Міста не лише є центрами економічного та культурного розвитку, але також є місцями, де життя завжди на повному ходу, а звуки різних джерел звукового забруднення несумнівно впливають на якість життя мешканців. У цьому контексті визнання та аналіз звуків у мегаполісі стає важливим завданням, яке привертає увагу науковців, інженерів та екологів. Встановлення та оцінка звуків, що оточують нас в міському оточенні, не лише допомагають зрозуміти вплив цих звуків на здоров’я та психоемоційний стан людини, але й відкривають нові перспективи для фермерства, вдосконалення міської інфраструктури, підвищення безпеки та комфорту мешканців, а також розвитку інноваційних технологій у сфері "розумних" міст. Так, до прикладу, у військовому застосуванні дана система може виявляти перельоти ракет на низьких висотах або безпілотників, таких як Shahed 136. У фермерстві використання технологій може сприяти виявленню тварин та автоматизації заходів щодо відлякування, оскільки фермери втрачають до 35% щорічного врожаю через вплив птахів. Шпаки, горобці, голуби, горлиці та граки виявилися особливо проблемними, завдаючи шкоду культурам, таким як соняшник, кукурудза, виноград і фруктові дерева в садах. В конкретному господарстві зграя птахів може призвести до повної втрати врожаю для фермера та навіть змусити засівати поля знову чи розріджувати посіви до 15%, оскільки граки чи ворони вибирають насіння із землі [1]. У роботі описано дослідження у сфері звуку: дослідження власне звуку та моделей машинного навчання для вирішення проблеми розпізнавання звуку. Метою роботи є розробка якомога точнішої моделі за допомогою методів машинного навчання для класифікації звуків в мегаполісі. Об’єктом дослідження є процес розпізнавання звуку. Було досліджено датасет та зроблено візуалізацію даних, зображено спектри звуків та їх звукові хвилі. Під час обробки даних було проведено аугментацію даних методами: додавання шуму, розтягування часу запису, масштабуванням гучності та іншими, а також проведено вилучення функій методами: • Коефіцієнти Mel-Frequency (MFCC); • Спектральний спад; • Функція кольоровості; • Спектральний центроїд; • Спектральна смуга пропускання; • Швидкість переходу через нуль [2]. Проведено аналіз роботи методів машинного навчання з заданими даними та на основі експерементів обрано найкращу модель. Розробка моделей відбувалась за допомогою мови програмування Python та бібліотеки SkLearn. Методи машинного навчання в досліді: • SVC; • ExtraTreesClassifier; • DecisionTreeClassifier; • QuadraticDiscriminantAnalysis; • KNeighborsClassifier; • RandomForestClassifier; • MLPClassifier; • AdaBoostClassifier [3]. Хоч всі моделі показали достатньо низький рівень розпізнавання, проте, найкращою виявився метод SVC. Зроблено висновки чому розпізнавання показало доволі низький рівень та зроблено план дій, що потрібно зробити в майбутньому. Ключові слова: методи машинного навчання, аналіз звуків, вилучення функцій, SkLearn, спектри звуків, звукові хвилі, аугментація даних. Перелік використаних літературних джерел: 1. Птахи-нищівники: як захистити своє господарство від пернатих?. 2015. Kurkul. URL: https://kurkul.com/blog/80-ptahi-nischivniki-yak-zahistiti-svoye-gospodarstvo-vid-pernatih (дата звернення 30.11.2023); 2. Developedia. 2021. Audio Feature Extraction. URL: https://devopedia.org/audio-feature-extraction; 3. Krishna Kumar, “Audio classification using ML methods” у M.Tech Artificial Intelligence REVA Academy for Corporate Excellence - RACE, REVA University Bengaluru, India.