Аналіз та експериментальне дослідження методу безмодельного навчання з підкріпленням

Півошенко, В. В.; Кулик, М. С.; Іванов, Ю. Ю.; Васюра, А. С.; Pivoshenko, V. V.; Kulyk, M. S.; Ivanov, Yu. Yu.; Vasiura, А. S.; Пивошенко, В. В.; Кулик, М. С.; Иванов, Ю. Ю.; Васюра, А. С.

dc.contributor.author	Півошенко, В. В.	uk
dc.contributor.author	Кулик, М. С.	uk
dc.contributor.author	Іванов, Ю. Ю.	uk
dc.contributor.author	Васюра, А. С.	uk
dc.contributor.author	Pivoshenko, V. V.	en
dc.contributor.author	Kulyk, M. S.	en
dc.contributor.author	Ivanov, Yu. Yu.	en
dc.contributor.author	Vasiura, А. S.	en
dc.contributor.author	Пивошенко, В. В.	ru
dc.contributor.author	Кулик, М. С.	ru
dc.contributor.author	Иванов, Ю. Ю.	ru
dc.contributor.author	Васюра, А. С.	ru
dc.date.accessioned	2020-12-16T12:23:49Z
dc.date.available	2020-12-16T12:23:49Z
dc.date.issued	2019
dc.identifier.citation	Аналіз та експериментальне дослідження методу безмодельного навчання з підкріпленням [Текст] / В. В. Півошенко, М. С. Кулик, Ю. Ю. Іванов, А. С. Васюра // Вісник Вінницького політехнічного інституту. – 2019. – № 3. – С. 40-49.	uk
dc.identifier.issn	1997–9266
dc.identifier.issn	1997–9274
dc.identifier.uri	http://ir.lib.vntu.edu.ua//handle/123456789/31050
dc.description.abstract	Розглянуто сучасний метод машинного навчання, який має назву навчання з підкріпленням. У задачах, які розв’язуються на основі взаємодії, найчастіше непрактично намагатися отримувати приклади необхідної поведінки інтелектуального програмного агента, які були б одночасно коректними та доречними для всіх ситуацій, оскільки наявні умови невизначеності, що виникають через неповноту інформації про навколишнє середовище та можливі дії інших ботів або людей. Тому програмний агент повинен навчатися на основі власного досвіду. Важливою перевагою навчання з підкріпленням є можливість навчання бота «з нуля» за рахунок збалансованого поєднання (пошук компромісу) режимів «дослідження» — «застосування» та вивчення стратегій, які дозволяють жертвувати малим на певному етапі заради отримання більшої вигоди в подальшому. Дослідження в області навчання з підкріпленням можна вважати частиною загального процесу, який розвивається в останні роки. Він складається зі взаємодії штучного інтелекту та інженерних дисциплін, тому саме у навчанні з підкріпленням розвиваються ідеї, взяті з теорії оптимального управління, стохастичної оптимізації та апроксимації, прагнучи реалізації загальніших і амбітних цілей штучного інтелекту. Представлено математичний апарат навчання з підкріпленням із залученням методу безмодельного Q-навчання, показано практичні аспекти його застосування, а також розроблено ефективну стратегію навчання бота у штучному середовищі (комп’ютерній відеогрі). В ролі спостережуваних змінних об’єкта виступає інформація, яку використовує агент, а прихованими змінними є довгострокові оцінки отриманої ним вигоди. Залежно від поточного стану середовища і дій бота розраховується функція вигоди, яку отримає агент у наступний момент часу. З використанням розробленого програмного забезпечення виконано експериментальні дослідження розглянутого методу. У роботі отримано оптимальні параметри налаштування, криві та час навчання бота. Результати дослідження можуть бути корисними для комп’ютерних систем різного функціонального призначення, їх можна застосовувати у моделюванні та проектуванні, в системах автоматичного керування та прийняття рішень, робототехніці, на фондових ринках тощо.	uk
dc.description.abstract	In this article there has been considered a modern method of machine learning, which is called reinforcement learning. In tasks, that are solved based on interaction, is often impractical to try to get the desired behavior examples of an intellectual software agent, that would be both correct and appropriate for all situations, since the uncertainty conditions exist, arising from incomplete information about an environment and possible actions of other bots or humans. Therefore, the software agent should be trained on the basis of its own experience. An important advantage of the reinforcement learning is the possibility of learning a bot «from scratch» by the balanced combination (search of the compromise) of the «exploration» «exploitation» modes and learning of the strategies, which allow to sacrifice some scores at this stage for the sake of greater benefit in the future.Researches in the field of the reinforcement learning can be considered as a part of the overall process, that developed over a last few years. It consists of an interaction of an artificial intelligence and other engineering disciplines that is why reinforcement learning develops ideas drawn from the optimal control theory, stochastic optimization and approximation, following common and ambitious goals of the artificial intelligence. In this work there has been presented the mathematical apparatus of reinforcement learning with the usage of the model-free Q-learning method, practical aspects of its application have been shown, also an effective strategy for the bot learning in an artificial environment (computer video game) has been developed. The role of the observed object variables is accepted by the information used by the agent, and the hidden variables are long-term estimates of the benefit it gainsDepending on the current status of the environment and bot activities is calculated the benefit function, which is received by the agent at the next time moment. With the usage of the developed software, experimental researches of the considered method have been performed. The optimal setting parameters, curves and time learning of the bot have been obtained.The research results may be useful for computer systems of various functional purposes; they can be used in modeling and design, in automatic control and decision making systems, in robotics, in stock markets, etc.	en
dc.description.abstract	Рассмотрен современный метод машинного обучения, названый «обучение с подкреплением». В задачах, ко- торые решаются на основе взаимодействия, чаще всего непрактично пытаться получать примеры необходи- мого поведения интеллектуального программного агента, которые были бы одновременно корректными и уме- стными для всех ситуаций, поскольку существуют условия неопределенности, возникающие из-за неполноты информации об окружающей среде и возможных действиях других ботов или людей. Поэтому программный агент должен учиться на основе собственного опыта. Важным преимуществом обучения с подкреплением явля-ется возможность обучения бота «с нуля» за счет сбалансированного сочетания (поиск компромисса) режимов «исследование» — «применение» и изучения стратегий, которые позволяют на определенном этапе жертво-вать малым ради получения большей выгоды в дальнейшем. Исследования в области обучения с подкреплением можно считать частью общего процесса, который развивается в последние годы. Он состоит из взаимодейст-вия искусственного интеллекта и других инженерных дисциплин, поэтому именно в обучении с подкреплением развиваются идеи, взятые из теории оптимального управления, стохастической оптимизации и аппроксима-ции, стремясь к реализации более общих и амбициозных целей искусственного интеллекта. Представлен математический аппарат обучения с подкреплением с применением метода безмодельного Q-обучения, показаны практические аспекты его применения, а также разработана эффективная стратегия обучения бота в искусственной среде (компьютерной видеоигре). В качестве наблюдаемых переменных объекта выступает информация, которую использует агент, а скрытыми переменными являются долгосрочные оценки полученной им выгоды. В зависимости от текущего состояния среды и действий бота рассчитывается функ-ция выгоды, которую получит агент в следующий момент времени. С использованием разработанного про-граммного обеспечения выполнены экспериментальные исследования рассматриваемого метода. В работе получены оптимальные параметры настройки, кривые и время обучения бота. Результаты исследования могут быть полезными для компьютерных систем разного функционального назначения, их можно применять в моде-лировании и проектировании, в системах автоматического управления и принятия решений, робототехнике, на фондовых рынках.	ru
dc.language.iso	uk_UA	uk_UA
dc.publisher	ВНТУ	uk
dc.relation.ispartof	Вісник Вінницького політехнічного інституту. № 3 : 40-49.	uk
dc.relation.uri	https://visnyk.vntu.edu.ua/index.php/visnyk/article/view/2361
dc.subject	штучний інтелект	uk
dc.subject	машинне навчання	uk
dc.subject	навчання з підкріпленням	uk
dc.subject	Q-навчання	uk
dc.subject	стратегія навчання	uk
dc.subject	інтелектуальний програмний агент	uk
dc.subject	бот	uk
dc.subject	оптимальні параметри	uk
dc.subject	криві навчання	uk
dc.subject	експериментальні дослідження	uk
dc.subject	artificial intelligence	en
dc.subject	machine learning	en
dc.subject	reinforcement learning	en
dc.subject	Q-learning	en
dc.subject	learning strategy	en
dc.subject	intellectual software agent	en
dc.subject	bot	en
dc.subject	optimal parameters	en
dc.subject	learning curves	en
dc.subject	experimental researches	en
dc.subject	искусственный интеллект	ru
dc.subject	машинное обучение	ru
dc.subject	обучение с подкреплением	ru
dc.subject	Q-обучение	ru
dc.subject	стратегия обучения	ru
dc.subject	интеллектуальный программный агент	ru
dc.subject	бот	ru
dc.subject	оптимальные параметры	ru
dc.subject	кривые обучения	ru
dc.subject	экспериментальные исследования	ru
dc.title	Аналіз та експериментальне дослідження методу безмодельного навчання з підкріпленням	uk
dc.title.alternative	Analysis and Experimental Research of Model-Free Reinforcement Learning Method	en
dc.title.alternative	Анализ и экспериментальное исследование метода безмодельного обучения с подкреплением	ru
dc.type	Article
dc.identifier.udc	004.89 + 004.942
dc.relation.references	O. Hernández-Lerma, J. Hennet, and J. Lasserre, “Average Сost Markov Decision Processes: Optimality conditions,” Journal of Mathematical Analysis and Applications, vol. 158, no. 2, pp. 396-406, 1991.	en
dc.relation.references	R. Bellman, “A Markovian Decision Process,” Indiana University Mathematics Journal, vol. 6, no. 4, pp. 679-684, 1957.	en
dc.relation.references	L. Busoniu, R. Babuska, B. Schutter, and D. Ernst, “Reinforcement Learning and Dynamic Programming Using Function Approximators,” Automation and Control Engineering, pp. 55-88, 2010.	en
dc.relation.references	А. С. Васюра, Т. Б. Мартинюк, та Л. М. Куперштейн, Методи та засоби нейроподібної обробки даних для систем керування. Вінниця, Україна: Універсум-Вінниця, 2008.	uk
dc.relation.references	C. J. C. H. Watkins, and P. Dayan, Reinforcement Learning, Technical Note, 1992, pp. 55-68.	en
dc.relation.references	F. Chollet, Deep learning with Python. Shelter Island. NY: Manning Publications Co., 2018, pp. 27-38.	en
dc.relation.references	J. Gläscher, N. Daw, P. Dayan, and J. P. O’doherty, “States versus Rewards: Dissociable Neural Prediction Error Signals Underlying Model-Based and Model-Free Reinforcement Learning,” Neuron, vol. 66, no. 4, pp. 585-595, 2010.	en
dc.relation.references	R. S. Sutton, and A. G. Barto, Reinforcement learning: an introduction. Cambridge: The MIT Press, 2015, pp. 143-160.	en
dc.relation.references	Т. М. Боровська, А. С. Васюра, та В. А. Северілов, Моделювання та оптимізація систем автоматичного управ- ління. Вінниця, Україна: ВНТУ, 2009.	uk
dc.relation.references	C. Jin, Z. Allen-Zhu, S. Bubeck, and M. Jordan, "Is Q-learning Provably Efficient?", arXiv.org, 2018. [Electronic resource]. Available: https://arxiv.org/pdf/1807.03765.pdf . Accessed: Jul. 10, 2018.	en
dc.relation.references	J. Dornheim, N. Link, and P. Gumbsch, “Model-Free Adaptive Optimal Control of Sequential Manufacturing Processes Using Reinforcement Learning,” arXiv.org, 2019. [Electronic resource]. Available: https://arxiv.org/abs/1809.06646v1 . Accessed: Jan. 07. 2019.	en
dc.relation.references	W. Haskell, and W. Huang, "Stochastic Approximation for Risk-Aware Markov Decision Processes", Arxiv.org, 2018. [Electronic resource]. Available: https://arxiv.org/pdf/1805.04238.pdf. Accessed: May. 17, 2018.	en
dc.relation.references	R. Bellman, “Dynamic programming and stochastic control processes,” Information and Control, vol. 1, no. 3, pp. 228-239, 1958.	en
dc.relation.references	C. J. C. H. Watkins, Learning from delayed rewards. University of Cambridge, 1989, pp. 55-68.	en
dc.relation.references	L. P. Kaelbling, M. L. Littman, and A. W. Moore, “An Introduction to Reinforcement Learning,” The Biology and Technology of Intelligent Autonomous Agents, 1995, pp. 90–127.	en
dc.relation.references	M. Rahman and H. Rashid, “Implementation of Q Learning and Deep Q Network for Controlling a Self-Balancing Robot Model,” ArXiv.org, 2018. [Electronic resource]. Available: https://arxiv.org/pdf/1807.08272.pdf . Accessed: Jul. 22, 2018.	en
dc.relation.references	C. J. C. H. Watkins and P. Dayan, “Q-learning,” Machine Learning, vol. 8, no. 3-4, pp. 279-292, 1992.	en
dc.relation.references	E. Even-Dar and Y. Mansour, “Learning Rates for Q-Learning,” Lecture Notes in Computer Science Computational Learning Theory, 2001, pp. 589–604.	en
dc.identifier.doi	https://doi.org/10.31649/1997-9266-2019-144-3-40-49

Файли в цьому документі

Ім'я:: Півошенко.pdf
Розмір:: 509.5Kb
Формат:: PDF

Відкрити

Даний документ включений в наступну(і) колекцію(ї)

Вісник Вінницького політехнічного інституту. 2019. № 3 [13]

Показати скорочену інформацію

Аналіз та експериментальне дослідження методу безмодельного навчання з підкріпленням

Файли в цьому документі

Даний документ включений в наступну(і) колекцію(ї)

Пов'язані елементи

Open-source Data Science and Machine Learning course with Python ﻿

Технологія дистанційного навчання ﻿

Сучасні педагогічні технології в закладах вищої освіти: змінюючи ландшафт навчання ﻿

Open-source Data Science and Machine Learning course with Python

Технологія дистанційного навчання

Сучасні педагогічні технології в закладах вищої освіти: змінюючи ландшафт навчання