Показати скорочену інформацію

dc.contributor.authorШмундяк, Д. О.uk
dc.contributor.authorКопняк, В. Є.uk
dc.contributor.authorShmundiak, D.en
dc.contributor.authorKopniak, V.en
dc.date.accessioned2024-06-25T08:00:45Z
dc.date.available2024-06-25T08:00:45Z
dc.date.issued2024
dc.identifier.citationШмундяк Д. О., Копняк В. Є. Метод ідентифікації локальних аномалій значень показників стану довкілля з використанням декомпозиції на півхвилі. Вісник Вінницького політехнічного інституту. 2024. № 1. С. 88-100.uk
dc.identifier.issn1997–9266
dc.identifier.issn1997–9274
dc.identifier.urihttps://ir.lib.vntu.edu.ua//handle/123456789/42888
dc.description.abstractВ епоху масової цифровізації всіх існуючих частин діяльності людства, кількість даних невпинно зростає і важливо мати навички з ними працювати для розв’язання різного роду задач. Однією з найпоширеніших структур збереження цих даних є часові ряди — послідовності точок, зазвичай, за певний хронологічний період. До цієї категорії відносяться фінансові показники, дані екологічного моніторингу, медичні показники тощо. Широкий перелік сфер застосування робить задачу аналізу часових рядів актуальною і важливою. Якість зробленого прогнозу часового ряду багато в чому залежить від якості проведеного аналізу, який може включати обробку та стандартизацію самих даних, виділення вагомих показників, пошук взаємозв’язків тощо. Серед цих кроків особливо вагоме місце посідає пошук аномалій. Аномалії — це точки набору даних, які певним чином відрізняються від інших значень або певних шаблонів поведінки. Наявність подібних записів сильно впливає на можливість моделей машинного навчання зробити точний прогноз, тому необхідно мати можливість ідентифікувати ці аномалії. Розроблено новий метод ідентифікації локальних аномалій значень показників стану довкілля з використанням декомпозиції на півхвилі. Основна ідея методу полягає у декомпозиції часового ряду на півхвилі, використовуючи точки тенденції, де падіння змінюється на зростання, чи навпаки, та у розбитті ряду на фрагменти. Кожен окремий фрагмент аналізується окремо і на ньому виконується пошук аномалій комбінування багатьох методів. Точність роботи цих методів перевіряється за рахунок експертного методу. Описано основні кроки запропонованого методу, наведено приклад його роботи на реальних даних моніторингу якості атмосферного повітря, отриманих з однієї зі станцій мережі громадського моніторингу EcoCity у межах міжнародної програми «Чисте повітря для України». На базі платформи Kaggle, розроблено та протестовано запропонований метод. Результат пошуку аномалій застосовано для побудови моделі Facebook Prophet, порівняно точність апроксимації з результатами роботи моделі Prophet з параметрами за замовчуванням. Випробування показали зменшення помилки апроксимації часового ряду на 11 % за метрикою RMSE та на 8 % за метрикою MAE. Це дозволило підтвердити ефективність розроблено методу.uk
dc.description.abstractIn the era of mass digitalization of all existing spheres of human activity, the amount of data is constantly growing and it is crucial to be able to work with such volume of data for the solution of various problems. One of the most common data structures is a time series — a sequence of data points, collected over some period of time, usually in chronological order. The time series comprise various financial indicators, environmental monitoring data, medical information, etc. Wide range of application areas makes the problem of time series analysis important and relevant. The quality of the time series forecast greatly depends on the quality of the performed analysis, which may include data standardization, detection of significant indicators, correlation analysis, etc. Anomaly detection occupies very important place among these steps. Anomalies are data points that differ in some way from other values in the dataset or violate certain data behavior patterns. The presence of similar records greatly affects the ability of machine learning models make accurate predictions, is why it is necessary to have the possibility for the identification of these anomalies. New method of local anomalies identification of the environment state indices using half-wave decomposition has been developed. Main idea of the method is to decompose the time series into half-waves, using trend points where the fall changes growth or vice versa and split the series into fragments. Each fragment is analyzed separately and is checked for anomalies by combining numerous methods. The accuracy of the methods is verified, applying the expert method. Main steps of the proposed method are described and the example of the method usage on real air quality monitoring data obtained from one of the stations of the EcoCity public monitoring network within the international program “Clean Air for Ukraine” is given. The proposed method was implemented and tested on the Kaggle platform’s notebook. The result of the anomaly detection was used for the construction of the Facebook Prophet model and the accuracy of the time series approximation was compared with the results of the Prophet model operation with the default parameters. Tests have shown 11 % decrease of approximation error of time series for RMSE metric and 8 % decrease for MAE metric. This result confirms the effectiveness of the method.en
dc.language.isouk_UAuk_UA
dc.publisherВНТУuk
dc.relation.ispartofВісник Вінницького політехнічного інституту. № 1 : 88-100.uk
dc.relation.urihttps://visnyk.vntu.edu.ua/index.php/visnyk/article/view/2982
dc.subjectаналіз часових рядівuk
dc.subjectмоделюванняuk
dc.subjectмашинне навчанняuk
dc.subjectаномалії часових рядівuk
dc.subjectякість атмосферного повітряuk
dc.subjectдекомпозиція часового рядуuk
dc.subjectEcoCityen
dc.subjecttime series analysisen
dc.subjectsimulationen
dc.subjectmachine learningen
dc.subjecttime series anomaliesen
dc.subjectair qualityen
dc.subjecttime series decompositionen
dc.titleМетод ідентифікації локальних аномалій значень показників стану довкілля з використанням декомпозиції на півхвиліuk
dc.title.alternativeMethod of local anomalies identification for environmental indicators values using half-wave decompositionen
dc.typeArticle
dc.identifier.udc004.9:504.3.054
dc.relation.referencesБ. І. Мокін, О. Б. Мокін, і В. Б. Мокін, Методологія та організація наукових досліджень, підруч., вид.3-е, змін. та доп. Вінниця, Україна: ВНТУ, 2023, 230 с.uk
dc.relation.referencesTerence C. Mills, Chapter 3, ARMA Models for Stationary Time Series, Terence C. Mills. Ed, Applied Time Series Analysis, Academic Press, 2019, pp. 31-56. ISBN 9780128131176. https://doi.org/10.1016/B978-0-12-813117-6.00003-X .en
dc.relation.referencesOmar Salima , Ngadi Md, Jebur Hamid, and Benqdara Salima, “Machine Learning Techniques for Anomaly Detection: An Overview,” International Journal of Computer Applications, 79, 2013, https://doi.org/10.5120/13715-1478 .en
dc.relation.referencesВ. Б. Мокін, О. В. Слободянюк, О. М. Давидюк, і Д. О. Шмундяк, «Інформаційна технологія пошуку можливих джерел підвищеного забруднення річки з використанням моделі Prophet,» Вісник Вінницького політехнічного інституту, № 4, с. 15-24, Верес. 2020. https://doi.org/10.31649/1997-9266-2020-151-4-15-24 .uk
dc.relation.referencesО. Б. Мокін, В. Б. Мокін, і Б. І. Мокін, «Алгоритм методу ідентифікації моделі авторегресії — ковзного середнього, який узагальнює методику Юла–Уокера, та його програмна Python-реалізація,» Вісник Вінницького політехнічного інституту, № 4, с. 41-55, 2022. https://doi.org/10.31649/1997-9266-2022-163-4-41-55 .uk
dc.relation.referencesR. K. Pearson, et al., “Generalized Hampel Filters,” EURASIP J. Adv. Signal Process, 87, 2016. https://doi.org/10.1186/s13634-016-0383-6 .en
dc.relation.referencesJulien Lesouple, Cédric Baudoin, Marc Spigai, and Jean-Yves Tourneret, “Generalized isolation forest for anomaly detection,” Pattern Recognition Letters, vol. 149, 2021, pp, 109-119. ISSN 0167-8655, https://doi.org/10.1016/j.patrec.2021.05.022 .en
dc.relation.referencesYumin Chen, Duoqian Miao, and Hongyun Zhang, “Neighborhood outlier detection,” Expert Systems with Applications, vol. 37, issue 12, pp. 8745-8749, 2010. ISSN 0957-4174. https://doi.org/10.1016/j.eswa.2010.06.040 .en
dc.relation.referencesMarkus M. Breunig, Hans-Peter Kriegel, Raymond T. Ng, and Jörg Sander. 2000. LOF: identifying density-based local outliers. SIGMOD Rec. 29, no. 2, pp. 93-104, June 2000. https://doi.org/10.1145/335191.335388 .en
dc.relation.referencesVieira, Rafael G.; Leone Filho, Marcos A.; Semolini, Robinson, “An Enhanced Seasonal-Hybrid ESD Technique for Robust Anomaly Detection on Time Series,” in Simpósio Brasileiro De Redes De Computadores E Sistemas Distribuídos (SBRC), 36, 2018, Campos do Jordão. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2018. pp. 281-294. ISSN 2177-9384. https://doi.org/10.5753/sbrc.2018.2422 .en
dc.relation.referencesА. В. Лосенко, «Інформаційна технологія прогнозування часового ряду кількості хворих на коронавірус на основі моделі Facebook Prophet,» Вісник Вінницького політехнічного інституту, вип. 5, с. 50-59, 2023. https://doi.org/10.31649/1997-9266- 2023-170-5-50-59 .uk
dc.relation.referencesВ. Б. Мокін, А. В. Лосенко, і А. Р. Ящолт, «Інформаційна технологія аналізу та прогнозування кількості нових випадків хвороби на коронавірус SARS-COV-2 в Україні на основі моделі Prophet,» Вісник Вінницького політехнічного інституту, № 5, с. 71-83, 2020. https://doi.org/10.31649/1997-9266-2020-152-5-71-83 .uk
dc.relation.referencesВ. Б. Мокін, А. В. Лосенко, і А. Р. Ящолт, «Інформаційна технологія аналізу та прогнозування багатохвильової кількості нових випадків захворювань на коронавірус COVID-19 на основі моделі Prophet», Вісник Вінницького політехнічного інституту, № 6, с. 65-75, 2020. https://doi.org/10.31649/1997-9266-2020-153-6-65-75 .uk
dc.relation.referencesД. О. Шмундяк, і В. Б. Мокін, «Метод ідентифікації параметрів гармонік та аномалій періодичного часового ряду на основі адаптивної декомпозиції,» Вісник Вінницького політехнічного інституту, № 6, с. 46-56, 2023. https://doi.org/10.31649/1997-9266-2023-171-6-46-56 .uk
dc.relation.referencesDmytro Shmundiak, and Vitalii Mokin, “Adaptive decomposition for harmonics and anomalies,” Kaggle Notebook. [Electronic resource]. Available: https://www.kaggle.com/code/dimashmundiak/adaptive-decomposition-for-harmonics-andanomalies . Accessed:20.12.2023.en
dc.relation.referencesVitalii Mokin, and Arsen Losenko, “COVID-19 Ukraine daily cases – EDA,” Kaggle Notebook. [Electronic resource]. Available: https://www.kaggle.com/code/vbmokin/covid-19-ukraine-daily-cases-eda . Accessed:12.10.2023.en
dc.relation.referencesSklearn. API Reference. [Electronic resource]. Available: https://scikit-learn.org/stable/modules/classes.html. Accessed: 07.12.2023.en
dc.identifier.doihttps://doi.org/10.31649/1997-9266-2024-172-1-88-100


Файли в цьому документі

Thumbnail

Даний документ включений в наступну(і) колекцію(ї)

Показати скорочену інформацію