Показати скорочену інформацію

dc.contributor.authorКулик, Л. Р.uk
dc.contributor.authorМокін, О. Б.uk
dc.date.accessioned2025-08-13T09:41:16Z
dc.date.available2025-08-13T09:41:16Z
dc.date.issued2025
dc.identifier.citationuk
dc.identifier.urihttps://ir.lib.vntu.edu.ua//handle/123456789/48001
dc.description.abstractНавчання з підкріпленням (RL), зокрема методи RLHF та DPO, стало стандартом для створення агентів на основі великих мовних моделей (LLM). Однак, ці підходи стикаються з двома фундаментальними проблемами: неконсистентністю поведінки агента та значною обчислювальною неефективністю. Як альтернативне рішення до сучасних підходів запропоновано навчання на основі багатовимірної винагороди та диференційованої критики. Такий підхід дозволяє виконувати цілеспрямоване оновлення політики, системно виправляючи конкретні аспекти поведінки. Це не лише підвищує консистентність агента, але й радикально покращує обчислювальну ефективність, оскільки кожна ітерація навчання несе значно більше інформації.uk
dc.description.abstractReinforcement learning (RL), particularly methods like RLHF and DPO, has become the standard for creating agents based on large language models (LLMs). However, these approaches face two fundamental problems: inconsistency in agent behavior and significant computational inefficiency. As an alternative to current approaches, training based on multidimensional rewards and differentiated critique is proposed. This approach enables targeted policy updates, systematically correcting specific aspects of behavior. This not only enhances agent consistency but also radically improves computational efficiency, as each training iteration is significantly more information-dense. Thus, this opens the path toward creating more reliable, logically consistent, and training-efficient autonomous agents.en
dc.language.isouk_UAuk_UA
dc.publisherВНТУuk
dc.relation.ispartof// Матеріали Всеукраїнської науково-практичної інтернет-конференції «Молодь в науці: дослідження, проблеми, перспективи (МН-2025)», 15-16 червня 2025 р.uk
dc.relation.urihttps://conferences.vntu.edu.ua/index.php/mn/mn2025/paper/view/25509
dc.subjectглибоке навчанняuk
dc.subjectнавчання з підкріпленнямuk
dc.subjectвеликі мовні моделіuk
dc.subjectконсистентністьuk
dc.subjectdeep learninguk
dc.subjectreinforcement learninguk
dc.subjectlarge language modelsuk
dc.subjectconsistencyuk
dc.titleПроблематика консистентності великих мовних моделей при навчанні з підкріпленнямuk
dc.typeThesis
dc.identifier.udc004.89
dc.relation.referencesShuhe Wang, et al. Reinforcement Learning Enhanced LLMs: A Survey arXiv:2412.10400 [cs.CL], Dec. 2024.
dc.relation.referencesGuanzhi Wang, et al. Voyager: An Open-Ended Embodied Agent with Large Language Models arXiv:2305.16291 [cs.AI], May 2023.
dc.relation.referencesWill Maddern, et al. WebArena: A Realistic Web Environment for Building Autonomous Agents arXiv:2307.13854 [cs.AI], Jul. 2023.
dc.relation.referencesShunyu Yao, et al. ReAct: Synergizing Reasoning and Acting in Language Models arXiv:2210.03629 [cs.CL], Oct. 2022.
dc.relation.referencesNoah Shinn, et al. Reflexion: Language Agents with Verbal Reinforcement Learning arXiv:2303.11366 [cs.AI], Mar. 2023.
dc.relation.referencesLong Ouyang, et al. Training language models to follow instructions with human feedback arXiv:2203.02155 [cs.CL], Mar. 2022.
dc.relation.referencesOpenAI, et al. GPT-4 Technical Report arXiv:2303.08774 [cs.CL], Mar. 2023.
dc.relation.referencesJohn Schulman, et al. Proximal Policy Optimization Algorithms arXiv:1707.06347 [cs.LG], Jul. 2017.
dc.relation.referencesWenyun Li, et al. Shaping Sparse Rewards in Reinforcement Learning: A Semi-supervised Approach arXiv:2501.19128 [cs.LG], Jan. 2025.
dc.relation.referencesAaron Grattafiori, et al. The Llama 3 Herd of Models arXiv:2407.21783 [cs.AI], Jul. 2023.
dc.relation.referencesAn Yang, et al. Qwen2 Technical Report arXiv:2407.10671 [cs.CL], Jul. 2024.


Файли в цьому документі

Thumbnail

Даний документ включений в наступну(і) колекцію(ї)

Показати скорочену інформацію