Аналіз та імплементація ідеї навчання великих мовних моделей за аналогією з дитячим когнітивним розвитком

Дадиверін, В. В.; Бісікало, О. В.; Dadyverin, V. V.; Bisikalo, О. V.

Author

Дадиверін, В. В.

Бісікало, О. В.

Dadyverin, V. V.

Bisikalo, О. V.

Date

2025

Metadata

Show full item record

Collections

Наукові роботи каф. АІІТ [310]

Abstract

Дослідження присвячено проблематиці недостатньої ефективності великих мовних моделей у питаннях розв’язання математичних завдань, послідовного багатокрокового аналізу та міркування щодо можливих варіантів вирішення. У статті розкрито недосконалість сучасних LLM у питаннях послідовного мислення, попри їхню здатність до генерації природного та осмисленого тексту, вони досі залишаються суттєво обмеженими при вирішенні задач, які потребують логічного міркування або обґрунтування. З’ясовано, що такі обмеження нерідко є наслідком структури навчального процесу мовної моделі, бо той не має нічого спільного з процесами, які відбуваються під час формування когнітивних та ментальних моделей людини. У цій роботі розглянуто підхід навчання за подібністю до когнітивного розвитку людини, який базується на поєднанні наступних концепцій: Curriculum learning – навчання з поетапним збільшенням складності завдань, Scaffolding – сегментоване навчання зі зменшенням рівня опіки після засвоєння певного рівня знань, та прогресивне зміцнення ментальних структур за рахунок створення узагальнених патернів для розв’язання задач. Основну увагу зосереджено на імплементації навчального процесу з поетапним ускладненням вхідного матеріалу – від базових арифметичних рівнянь до великих складених логіко-словесних задач. Ефективність даного підходу оцінено на прикладі моделей Phi-2 та Mistral 7B, навчених в двох режимах: стандартне випадкове навчання та запропоноване контрольоване навчання. Результатами дослідження доведено, що запропонований підхід когнітивного навчання забезпечує кращі результати під час вирішення базових задач та складних багатокомпонентних завдань, які потребують проміжних узагальнених знань. Аналізом подібних досліджень підтверджено перспективність розвитку навчання з імітацією когнітивного розвитку для підвищення ефективності обробки вхідних даних за умов обмеженої кількості навчальної інформації.

The study is devoted to the problem of not enough efficiency of large language models in solving mathematical problems, sequential multi-step analysis and reasoning about possible solutions. The article reveals the imperfection of modern LLMs in the issues of sequential thinking, despite their ability to generate natural and meaningful text, they still remain significantly limited in solving problems that require logical reasoning or justification. It was found that such limitations are often a consequence of the structure of the learning process of the language model, because it has nothing to do with the processes that occur during the formation of cognitive and mental models of a person. This work considers the approach of learning by similarity to human cognitive development, which is based on a combination of the following concepts: Curriculum learning – learning with a gradual increase in the complexity of tasks, Scaffolding – segmented learning with a decrease in the level of care after mastering a certain level of knowledge, and progressive strengthening of mental structures by creating generalized patterns for solving problems. The main attention is focused on the implementation of the learning process with a gradual complication of the input material – from basic arithmetic equations to large complex logical-verbal problems. The effectiveness of this approach is evaluated on the example of Phi-2 and Mistral 7B models, trained in two modes: standard random learning and the proposed supervised learning. The results of the study prove that the proposed cognitive learning approach provides better results when solving basic tasks and complex multi-component tasks that require intermediate generalized knowledge. The analysis of similar studies confirms the promising development of training with imitation of cognitive development to increase the efficiency of processing input data under conditions of a limited amount of training information.

URI:

https://ir.lib.vntu.edu.ua//handle/123456789/51099

View/Open

197950.pdf (417.5Kb)