Проблематика консистентності великих мовних моделей при навчанні з підкріпленням

Кулик, Л. Р.; Мокін, О. Б.; Kulyk, L. R.; Mokin, O. B.

dc.contributor.author	Кулик, Л. Р.	uk
dc.contributor.author	Мокін, О. Б.	uk
dc.contributor.author	Kulyk, L. R.	en
dc.contributor.author	Mokin, O. B.	en
dc.date.accessioned	2025-08-13T09:41:16Z
dc.date.available	2025-08-13T09:41:16Z
dc.date.issued	2025
dc.identifier.citation	Кулик Л. Р., Мокін О. Б. Проблематика консистентності великих мовних моделей при навчанні з підкріпленням // Матеріали Всеукраїнської науково-практичної інтернет-конференції «Молодь в науці: дослідження, проблеми, перспективи (МН-2025)», Вінниця, 15-16 червня 2025 р. Електрон. текст. дані. 2025. URI: https://conferences.vntu.edu.ua/index.php/mn/mn2025/paper/view/25509.	uk
dc.identifier.isbn	978-617-8163-57-0
dc.identifier.uri	https://ir.lib.vntu.edu.ua//handle/123456789/48001
dc.description.abstract	Навчання з підкріпленням (RL), зокрема методи RLHF та DPO, стало стандартом для створення агентів на основі великих мовних моделей (LLM). Однак, ці підходи стикаються з двома фундаментальними проблемами: неконсистентністю поведінки агента та значною обчислювальною неефективністю. Як альтернативне рішення до сучасних підходів запропоновано навчання на основі багатовимірної винагороди та диференційованої критики. Такий підхід дозволяє виконувати цілеспрямоване оновлення політики, системно виправляючи конкретні аспекти поведінки. Це не лише підвищує консистентність агента, але й радикально покращує обчислювальну ефективність, оскільки кожна ітерація навчання несе значно більше інформації. Таким чином, відкриваючи шлях до створення більш надійних, логічно послідовних та ефективних у навчанні автономних агентів.	uk
dc.description.abstract	Reinforcement learning (RL), particularly methods like RLHF and DPO, has become the standard for creating agents based on large language models (LLMs). However, these approaches face two fundamental problems: inconsistency in agent behavior and significant computational inefficiency. As an alternative to current approaches, training based on multidimensional rewards and differentiated critique is proposed. This approach enables targeted policy updates, systematically correcting specific aspects of behavior. This not only enhances agent consistency but also radically improves computational efficiency, as each training iteration is significantly more information-dense. Thus, this opens the path toward creating more reliable, logically consistent, and training-efficient autonomous agents.	en
dc.language.iso	uk_UA	uk_UA
dc.publisher	ВНТУ	uk
dc.relation.ispartof	Матеріали Всеукраїнської науково-практичної інтернет-конференції «Молодь в науці: дослідження, проблеми, перспективи (МН-2025)», Вінниця, 15-16 червня 2025 р.	uk
dc.relation.uri	https://conferences.vntu.edu.ua/index.php/mn/mn2025/paper/view/25509
dc.subject	глибоке навчання	uk
dc.subject	навчання з підкріпленням	uk
dc.subject	великі мовні моделі	uk
dc.subject	консистентність	uk
dc.subject	deep learning	en
dc.subject	reinforcement learning	en
dc.subject	large language models	en
dc.subject	consistency	en
dc.title	Проблематика консистентності великих мовних моделей при навчанні з підкріпленням	uk
dc.type	Thesis
dc.identifier.udc	004.89
dc.relation.references	Shuhe Wang, et al. Reinforcement Learning Enhanced LLMs: A Survey arXiv:2412.10400 [cs.CL], Dec. 2024.	en
dc.relation.references	Guanzhi Wang, et al. Voyager: An Open-Ended Embodied Agent with Large Language Models arXiv:2305.16291 [cs.AI], May 2023.	en
dc.relation.references	Will Maddern, et al. WebArena: A Realistic Web Environment for Building Autonomous Agents arXiv:2307.13854 [cs.AI], Jul. 2023.	en
dc.relation.references	Shunyu Yao, et al. ReAct: Synergizing Reasoning and Acting in Language Models arXiv:2210.03629 [cs.CL], Oct. 2022.	en
dc.relation.references	Noah Shinn, et al. Reflexion: Language Agents with Verbal Reinforcement Learning arXiv:2303.11366 [cs.AI], Mar. 2023.	en
dc.relation.references	Long Ouyang, et al. Training language models to follow instructions with human feedback arXiv:2203.02155 [cs.CL], Mar. 2022.	en
dc.relation.references	OpenAI, et al. GPT-4 Technical Report arXiv:2303.08774 [cs.CL], Mar. 2023.	en
dc.relation.references	John Schulman, et al. Proximal Policy Optimization Algorithms arXiv:1707.06347 [cs.LG], Jul. 2017.	en
dc.relation.references	Wenyun Li, et al. Shaping Sparse Rewards in Reinforcement Learning: A Semi-supervised Approach arXiv:2501.19128 [cs.LG], Jan. 2025.	en
dc.relation.references	Aaron Grattafiori, et al. The Llama 3 Herd of Models arXiv:2407.21783 [cs.AI], Jul. 2023.	en
dc.relation.references	An Yang, et al. Qwen2 Technical Report arXiv:2407.10671 [cs.CL], Jul. 2024.	en

Файли в цьому документі

Ім'я:: 25509.pdf
Розмір:: 552.8Kb
Формат:: PDF

Відкрити

Даний документ включений в наступну(і) колекцію(ї)

Молодь в науці: дослідження, проблеми, перспективи (МН-2025) [960]
Молодіжна науково-практична інтернет-конференція студентів аспірантів та молодих науковців

Показати скорочену інформацію