| dc.contributor.author | Кулик, Л. Р. | uk |
| dc.contributor.author | Мокін, О. Б. | uk |
| dc.contributor.author | Kulyk, L. R. | en |
| dc.contributor.author | Mokin, O. B. | en |
| dc.date.accessioned | 2025-08-13T09:41:16Z | |
| dc.date.available | 2025-08-13T09:41:16Z | |
| dc.date.issued | 2025 | |
| dc.identifier.citation | Кулик Л. Р., Мокін О. Б. Проблематика консистентності великих мовних моделей при навчанні з підкріпленням // Матеріали Всеукраїнської науково-практичної інтернет-конференції «Молодь в науці: дослідження, проблеми, перспективи (МН-2025)», Вінниця, 15-16 червня 2025 р. Електрон. текст. дані. 2025. URI: https://conferences.vntu.edu.ua/index.php/mn/mn2025/paper/view/25509. | uk |
| dc.identifier.isbn | 978-617-8163-57-0 | |
| dc.identifier.uri | https://ir.lib.vntu.edu.ua//handle/123456789/48001 | |
| dc.description.abstract | Навчання з підкріпленням (RL), зокрема методи RLHF та DPO, стало стандартом для створення агентів
на основі великих мовних моделей (LLM). Однак, ці підходи стикаються з двома фундаментальними
проблемами: неконсистентністю поведінки агента та значною обчислювальною неефективністю. Як
альтернативне рішення до сучасних підходів запропоновано навчання на основі багатовимірної винагороди та
диференційованої критики. Такий підхід дозволяє виконувати цілеспрямоване оновлення політики, системно
виправляючи конкретні аспекти поведінки. Це не лише підвищує консистентність агента, але й радикально
покращує обчислювальну ефективність, оскільки кожна ітерація навчання несе значно більше інформації.
Таким чином, відкриваючи шлях до створення більш надійних, логічно послідовних та ефективних у навчанні
автономних агентів. | uk |
| dc.description.abstract | Reinforcement learning (RL), particularly methods like RLHF and DPO, has become the standard for creating
agents based on large language models (LLMs). However, these approaches face two fundamental problems: inconsistency in agent behavior and significant computational inefficiency. As an alternative to current approaches, training
based on multidimensional rewards and differentiated critique is proposed. This approach enables targeted policy
updates, systematically correcting specific aspects of behavior. This not only enhances agent consistency but also radically improves computational efficiency, as each training iteration is significantly more information-dense. Thus, this
opens the path toward creating more reliable, logically consistent, and training-efficient autonomous agents. | en |
| dc.language.iso | uk_UA | uk_UA |
| dc.publisher | ВНТУ | uk |
| dc.relation.ispartof | Матеріали Всеукраїнської науково-практичної інтернет-конференції «Молодь в науці: дослідження, проблеми, перспективи (МН-2025)», Вінниця, 15-16 червня 2025 р. | uk |
| dc.relation.uri | https://conferences.vntu.edu.ua/index.php/mn/mn2025/paper/view/25509 | |
| dc.subject | глибоке навчання | uk |
| dc.subject | навчання з підкріпленням | uk |
| dc.subject | великі мовні моделі | uk |
| dc.subject | консистентність | uk |
| dc.subject | deep learning | en |
| dc.subject | reinforcement learning | en |
| dc.subject | large language models | en |
| dc.subject | consistency | en |
| dc.title | Проблематика консистентності великих мовних моделей при навчанні з підкріпленням | uk |
| dc.type | Thesis | |
| dc.identifier.udc | 004.89 | |
| dc.relation.references | Shuhe Wang, et al. Reinforcement Learning Enhanced LLMs: A Survey arXiv:2412.10400 [cs.CL], Dec. 2024. | en |
| dc.relation.references | Guanzhi Wang, et al. Voyager: An Open-Ended Embodied Agent with Large Language Models arXiv:2305.16291 [cs.AI], May 2023. | en |
| dc.relation.references | Will Maddern, et al. WebArena: A Realistic Web Environment for Building Autonomous Agents arXiv:2307.13854 [cs.AI], Jul. 2023. | en |
| dc.relation.references | Shunyu Yao, et al. ReAct: Synergizing Reasoning and Acting in Language Models arXiv:2210.03629 [cs.CL], Oct. 2022. | en |
| dc.relation.references | Noah Shinn, et al. Reflexion: Language Agents with Verbal Reinforcement Learning arXiv:2303.11366 [cs.AI], Mar. 2023. | en |
| dc.relation.references | Long Ouyang, et al. Training language models to follow instructions with human feedback arXiv:2203.02155 [cs.CL], Mar. 2022. | en |
| dc.relation.references | OpenAI, et al. GPT-4 Technical Report arXiv:2303.08774 [cs.CL], Mar. 2023. | en |
| dc.relation.references | John Schulman, et al. Proximal Policy Optimization Algorithms arXiv:1707.06347 [cs.LG], Jul. 2017. | en |
| dc.relation.references | Wenyun Li, et al. Shaping Sparse Rewards in Reinforcement Learning: A Semi-supervised Approach arXiv:2501.19128 [cs.LG], Jan. 2025. | en |
| dc.relation.references | Aaron Grattafiori, et al. The Llama 3 Herd of Models arXiv:2407.21783 [cs.AI], Jul. 2023. | en |
| dc.relation.references | An Yang, et al. Qwen2 Technical Report arXiv:2407.10671 [cs.CL], Jul. 2024. | en |