Інтелектуальна технологія аналізу та передбачення цін на вживані автомобілі
Author
Мокін, В. Б.
Лосенко, А. В.
Дратований, М. В.
Mokin, V. B.
Losenko, A. V.
Dratovanyi, M. V.
Мокин, В. Б.
Лосенко, А. В.
Дратований, М. В.
Date
2019Metadata
Show full item recordCollections
Abstract
Для вигідного продажу вживаного автомобіля слід керуватись не лише власною оцінкою або оцінкою сторонніх експертів, але й використовувати всі інші придатні для цього ресурси. Такими ресурсами можуть слугувати системи передбачення ціни, які за допомогою загальних ознак того чи іншого автомобіля (як-от виробник автомобіля, модель автомобіля, пробіг, вид палива, тип кузова тощо)
здатні прогнозувати можливу ціну автомобіля. Такі системи можуть допомогти під час прийняття
рішень не лише пересічним продавцям вживаних авто, а й агентствам, які займаються замовленням
та масовим перевезенням вживаних авто з-за кордону. Для вибору ключових ознак та ідентифікації
за ними оптимальної структури і параметрів моделей необхідно вибрати релевантні датасети,
провести їх розвідувальний аналіз та відбір ознак, побудувати моделі машинного навчання, з яких
вибрати оптимальну за певними критеріями. Для побудови інформаційної системи та перевірки
працездатності запропонованої інтелектуальної технології вибрано два зіставні датасети по
вживаних автомобілях США та України. Здійснено систематизацію методів та бібліотек на Python
для проведення розвідувального аналізу даних і сформульовано загальні рекомендації щодо їх застосування для поставленої задачі. Запропоновано загальні принципи інтелектуальної технології, яка
апробована на відібраних датасетах. Зокрема, проведено розвідувальний аналіз даних по США та
обґрунтовано правило для фільтрування аномальних, а можливо й помилкових, даних. Вибрано множину можливих моделей, здійснено їх тренування та вибрано оптимальну серед них за R2-критерієм.
Здійснено передбачення вартості авто, з точністю 86,1 %. Аналогічна задача розв’язана і для даних
по Україні. Досягнуто точність 85,6 %. Це довело працездатність запропонованої технології та дозволило отримати корисні для використання на практиці результати. For the profitable sale of a used car, people should not only be guided by their own or third-party experts' evaluation, but
also use all other suitable resources. Such resources can serve as price prediction systems that, using the common features
of a car (such as a car manufacturer, car model, mileage, fuel type, body type, etc.), are able to predict the possible price of
a car. Such systems can help in decision-making not only to ordinary car dealers, but also to agencies involved in the ordering
and bulk transportation of used cars from abroad. To select the key features and identify the optimal structure and parameters
of the models, relevant datasets should be selected, the intelligence analysis and selection of features will be
conducted, after which building of a number of machine learning models has begun, from which the optimal model was
chosen by certain criteria. In order to build an information system and test the functionality of the proposed intellectual technology,
two comparable datasets for used cars of the USA and Ukraine were selected. Python methods and libraries have
been systematized for intelligence analysis and general recommendations for their application for the task have been formulated.
The general principles of intellectual technology, which is tested on the selected datasets, are offered. In particular, a
exploratory data analysis of US data was conducted and a rule for filtering anomalous, and possibly erroneous, data was
substantiated. Many possible models were selected, their training was carried out and the optimal one was selected according
to the R-squared criterion. The cost of the car has been predicted to an accuracy of 86.1%. A similar problem is solved
for data on Ukraine. An accuracy of 85.6% was achieved. This has proven the workability of the proposed technology and
has yielded useful results in practice. Для выгодной продажи подержанного автомобиля следует руководствоваться не только собственной оценкой
или оценкой сторонних экспертов, а также использовать все другие подходящие для этого ресурсы. Такими ресур-
сами могут служить системы предвидения цен, которые с помощью общих признаков того или иного автомобиля
(например производитель автомобиля, модель автомобиля, пробег, вид топлива, тип кузова и другие) способны
прогнозировать возможную цену автомобиля. Такие системы могут помочь при принятии решений не только
рядовым продавцам подержанных автомобилей, но и агентствам, которые занимаются заказами и массовым пе-
ревозкам подержанных авто из-за рубежа. Для выбора ключевых признаков и идентификации по ним оптимальной
структуры и параметров моделей необходимо выбрать релевантные датасеты, провести их разведывательный
анализ и отбор признаков, построить ряд моделей машинного обучения, из которых выбрать оптимальную по
определенным критериям. Для построения информационной системы и проверки работоспособности предложен-
ной интеллектуальной технологии были выбраны два сопоставимые датасеты по подержанным автомобилям
США и Украины. Проведена систематизация методов и библиотек на Python для проведения разведовательного
анализа данных и сформулированы общие рекомендации по их применению для поставленной задачи. Предложены
общие принципы интеллектуальной технологии, апробированой на отобранных датасетах. В частности, прове-
ден разведывательный анализ данных по США и обоснованно правило для фильтрации аномальных, а возможно и
ложных, данных. Выбрано множество возможных моделей, осуществлены их тренировки и выбрана оптимальная
среди них по R2-критерию. Осуществлены предсказания стоимости автомобиля, с точностью 86,1 %. Аналогич-
ная задача решена и для данных по Украине. Достигнута точность 85,6 %. Это доказало работоспособность
предлагаемой технологии и позволило получить полезные для использования на практике результаты.
URI:
http://ir.lib.vntu.edu.ua//handle/123456789/31127