Метод ідентифікації локальних аномалій значень показників стану довкілля з використанням декомпозиції на півхвилі
Author
Шмундяк, Д. О.
Копняк, В. Є.
Shmundiak, D.
Kopniak, V.
Date
2024Metadata
Show full item recordCollections
Abstract
В епоху масової цифровізації всіх існуючих частин діяльності людства, кількість даних невпинно зростає і важливо мати навички з ними працювати для розв’язання різного роду задач. Однією з найпоширеніших структур збереження цих даних є часові ряди — послідовності точок, зазвичай, за певний хронологічний період. До цієї категорії відносяться фінансові показники, дані екологічного моніторингу, медичні показники тощо. Широкий перелік сфер застосування робить задачу аналізу
часових рядів актуальною і важливою. Якість зробленого прогнозу часового ряду багато в чому залежить від якості проведеного аналізу, який може включати обробку та стандартизацію самих даних, виділення вагомих показників, пошук взаємозв’язків тощо. Серед цих кроків особливо вагоме місце посідає пошук аномалій. Аномалії — це точки набору даних, які певним чином відрізняються від інших значень або певних шаблонів поведінки. Наявність подібних записів сильно впливає на можливість моделей машинного навчання зробити точний прогноз, тому необхідно мати можливість ідентифікувати ці аномалії. Розроблено новий метод ідентифікації локальних аномалій значень показників стану довкілля з використанням декомпозиції на півхвилі. Основна ідея методу полягає у декомпозиції часового ряду на півхвилі, використовуючи точки тенденції, де падіння змінюється на зростання, чи навпаки, та у розбитті ряду на фрагменти. Кожен окремий фрагмент аналізується окремо і на ньому виконується пошук аномалій комбінування багатьох методів. Точність роботи цих методів перевіряється за рахунок експертного методу. Описано основні кроки запропонованого методу, наведено приклад його роботи на реальних даних моніторингу якості атмосферного повітря, отриманих з однієї зі станцій мережі громадського моніторингу EcoCity у межах міжнародної програми «Чисте повітря для України». На базі платформи Kaggle, розроблено та протестовано запропонований метод. Результат пошуку аномалій застосовано для побудови моделі Facebook Prophet, порівняно точність апроксимації з результатами роботи моделі Prophet з параметрами за замовчуванням. Випробування показали зменшення помилки апроксимації часового ряду на 11 % за метрикою RMSE та на 8 % за метрикою MAE. Це дозволило підтвердити ефективність розроблено методу. In the era of mass digitalization of all existing spheres of human activity, the amount of data is constantly growing and it is crucial to be able to work with such volume of data for the solution of various problems. One of the most common data structures is a time series — a sequence of data points, collected over some period of time, usually in chronological order. The time series comprise various financial indicators, environmental monitoring data, medical information, etc. Wide range
of application areas makes the problem of time series analysis important and relevant. The quality of the time series forecast greatly depends on the quality of the performed analysis, which may include data standardization, detection of significant indicators, correlation analysis, etc. Anomaly detection occupies very important place among these steps. Anomalies are data points that differ in some way from other values in the dataset or violate certain data behavior patterns. The presence of similar records greatly affects the ability of machine learning models make accurate predictions, is why it is necessary to have the possibility for the identification of these anomalies. New method of local anomalies identification of the environment state indices using half-wave decomposition has been developed. Main idea of the method is to decompose the time series into half-waves, using trend points where the fall changes growth or vice versa and split the series into fragments. Each fragment is analyzed separately and is checked for
anomalies by combining numerous methods. The accuracy of the methods is verified, applying the expert method. Main
steps of the proposed method are described and the example of the method usage on real air quality monitoring data obtained from one of the stations of the EcoCity public monitoring network within the international program “Clean Air for Ukraine” is given. The proposed method was implemented and tested on the Kaggle platform’s notebook. The result of the anomaly detection was used for the construction of the Facebook Prophet model and the accuracy of the time series approximation was compared with the results of the Prophet model operation with the default parameters. Tests have shown 11 % decrease of approximation error of time series for RMSE metric and 8 % decrease for MAE metric. This result confirms the effectiveness of the method.
URI:
https://ir.lib.vntu.edu.ua//handle/123456789/42888