Інформаційна технологія оптимізації параметрів ансамблю моделей штучного інтелекту для прогнозування наявності опадів за даними метеомоніторингу
Автор
Дратований, М. В.
Козачко, О. М.
Мельник, О. Л.
Варчук, І. В.
Dratovanyi, M. V.
Kozachko, O. M.
Melnyk, O. L.
Varchuk, I. V.
Козачко, А. Н.
Мельнык, А. Л.
Варчук, И. В.
Дата
2020Metadata
Показати повну інформаціюCollections
Анотації
Прогнозування даних — це тривіальна задача системного аналізу, існують різні види прогнозів та передбачення. Одним з них є бінарний прогноз, який відповідає на питання: «Відбудеться подія чи ні?». Одним з питань метеорології є питання прогнозування наявності опадів, а також яка точність буде у такого прогнозу.
В роботі розглянуто задачу прогнозування наявності опадів за даними метеорологічного моніторингу та запропонована інформаційна технологія оптимізації параметрів ансамблю таких моделей машинного навчання, як моделі градієнтного бустингу та логістичної регресії, що побудовані на основі набору інформативних ознак. Запропонована інформаційна технологія дозволяє виконати розвідувальний аналіз вхідних даних та визначити оптимальний набір інформативних ознак, а за рахунок алгоритму, який на кожному кроці визначає оптимальні одно-, дво-, три-, … елементні набори ознак, максимізувати точність прогнозування. Побудовано графіки впливу ознак на точність використаних моделей машинного навчання. Для кожного типу моделей визначено свій набір ознак. Для побудови інформаційної технології взято дані, надані Вінницьким центром з гідрометеорології. Це дані моніторингу атмосфери м. Вінниця за останні 10 років, які включають: температуру повітря, вологість повітря, точку роси, хмарність та швидкість вітру.
Для підвищення точності прогнозування запропоновано математичну модель, яка базується на оптимальному визначенні ваг ансамблю моделей градієнтного бустингу та логістичної регресії. Проведено експерименти, які показали достатньо точний результат. Точність запропонованої інформаційної технології показала 80 %. Це підвередило достовірність запропонованої технології. Data forecasting is a trivial task of systems analysis, there are different types of forecasts and predictions. One of them is a binary forecast that answers the question of whether an event will occur or not. One of the issues of meteorology is the issue of forecasting precipitation, as well as what accuracy will be in such a forecast.
The paper considers the problem of forecasting the presence of precipitation according to meteorological monitoring and proposes information technology to optimize the parameters of the ensemble of such models of machine learning as models of gradient boosting and logistic regression, built on a set of informative features. The proposed information technology allows you to perform intelligence analysis of input data and determine the optimal set of informative features, and due to the algorithm, which at each step determines the optimal one, two, three,… -element sets of features that maximize fore-casting accuracy. Graphs of influence of signs on accuracy of the used models of machine learning are constructed. Each type of model has its own set of features. To provide information technology, the data provided by the Vinnytsia Center for Hydrometeorology were selected. These are the data of atmospheric monitoring of Vinnytsia for the last 10 years, which include: air temperature, humidity, dew point, cloudiness and wind speed.
To increase the accuracy of forecasting, a mathematical model is proposed, which is based on the optimal determination of the weights of the ensemble of models of gradient boosting and logistic regression. Experiments were performed that showed a fairly accurate result. The accuracy of the proposed information technology showed 80%. This confirmed the reliability of the proposed technology. Прогнозирование данных — это тривиальная задача системного анализа, существуют различные виды про-гнозов и предсказаний. Одним из них является бинарный прогноз, который отвечает на вопрос: “ Состоится событие или нет?» Один из вопросов метеорологии — это вопрос прогнозирования наличия осадков, а также какая точность будет у такого прогноза.
Рассмотрена задача прогнозирования наличия осадков по данным метеорологического мониторинга и пред-ложена информационная технология оптимизации параметров ансамбля таких моделей машинного обучения, как модели градиентного бустинга и логистической регрессии. Они построены на основе набора информатив-ных признаков. Предложенная информационная технология позволяет выполнить разведывательный анализ входных данных и определить оптимальный набор информативных признаков, а за счет алгоритма, который на каждом шагу определяет оптимальные одно-, двух-, трех-, ..элементные наборы признаков, максимизировать точность прогнозирования. Построены графики влияния признаков на точность использованных моделей ма-шинного обучения. Для каждого типа моделей определен свой набор признаков. Для построения информационной технологии взяты данные, предоставленные Винницким центром по гидрометеорологии. Это данные монито-ринга атмосферы г. Винницы за последние 10 лет, которые включают: температуру воздуха, влажность возду-ха, точку росы, облачность и скорость ветра.
Для повышения точности прогнозирования предложена математическая модель, основанная на оптималь-ном определении весов ансамбля моделей градиентного бустинга и логистической регрессии. Проведены экспе-рименты, которые показали достаточно точный результат. Точность предложенной информационной техно-логии показала 80 %. Это подтвердило достоверность предложенной технологии.
URI:
http://ir.lib.vntu.edu.ua//handle/123456789/31716