Дослідження впливу взаємодії різних моделей на розподіл ймовірностей наступного токена у великих мовних моделях
Автор
Варер, Б. Ю.
Мокін, В. Б.
Mokin, V. B.
Varer, B. Yu.
Дата
2025Metadata
Показати повну інформаціюCollections
Анотації
Досліджено вплив зміни великої мовної моделі при фіксованому контексті на розподіл ймовірностей
наступного токена, у порівнянні з впливом зміни контексту при фіксованій моделі. Проведено
експериментальне порівняння факторів зміни моделі та зміни контексту з використанням моделей Meta
LLaMA 3.2-3B та Microsoft Phi 4-mini на датасеті з 60 питань з різних предметних областей. За допомогою
дивергенції Дженсена-Шеннона встановлено, що зміна моделі при фіксованому контексті призводить до змін у
розподілі наступного токена (JSD 0.640-0.678), які є співставні за величиною зі зміною контексту при
фіксованій моделі (JSD 0.638-0.721). Результати підтверджують важливість оптимального вибору моделей
під час проєктування ефективних систем штучного інтелекту. The influence of changing a large language model with fixed context on the distribution of next token probabilities
was investigated, compared to the influence of changing a context with a fixed model. An experimental comparison of
model change and context change factors was conducted using Meta LLaMA 3.2-3B and Microsoft Phi-4-mini models
on a dataset of 60 questions from various subject domains. Using Jensen-Shannon divergence, it was established that
changing the model with fixed context leads to changes in the next token distribution (JSD 0.640-0.678) that are
comparable in magnitude to changing context with a fixed model (JSD 0.638-0.721). The results confirm the importance
of optimal model selection when designing ef ective artificial intelligence systems.
URI:
https://ir.lib.vntu.edu.ua//handle/123456789/48228

