Дослідження впливу взаємодії різних моделей на розподіл ймовірностей наступного токена у великих мовних моделях
Анотації
Досліджено вплив зміни великої мовної моделі при фіксованому контексті на розподіл ймовірностей наступного токена, у порівнянні з впливом зміни контексту при фіксованій моделі. Проведено експериментальне порівняння факторів зміни моделі та зміни контексту з використанням моделей Meta The influence of changing a large language model with fixed context on the distribution of next token probabilities was investigated, compared to the influence of changing a context with a fixed model. An experimental comparison of model change and context change factors was conducted using Meta LLaMA 3.2-3B and Microsoft Phi-4-mini models on a dataset of 60 questions from various subject domains. Using Jensen-Shannon divergence, it was established that changing the model with fixed context leads to changes in the next token distribution (JSD 0.640-0.678) that are comparable in magnitude to changing context with a fixed model (JSD 0.638-0.721). The results confirm the importance of optimal model selection when designing effective artificial intelligence systems.
URI:
https://ir.lib.vntu.edu.ua//handle/123456789/48228
Відкрити
Пов'язані елементи
Showing items related by title, author, creator and subject.
-
Neural network technologies of investment risk estimation taking into account the legislative aspect
Azarova, Anzhelika; Azarova, Larysa; Nikiforova, Liliia; Azarova, Veronika; Teplova, Olena; Kryvinska, Natalia; Азарова, А. О.; Азарова, Л. Є.; Нікіфорова, Л. О.; Азарова, В. В. (RWTH Aachen University, 2020)The article proposes conceptual bases of formalization of the investment risk estimation process by means of mathematical and computer modeling on the basis of neural network technologies. The methodological approach ... -
Епідеміологічні та мережеві моделі поширення дезінформації: огляд підходів і кейсів
Лавров, В. В. (ВНТУ, 2025)У статті здійснено аналіз епідеміологічних та мережевих моделей поширення дезінформації у цифрових соціальних мережах. Представлено порівняльний огляд основних підходів, таких як компартментні моделі (SIR, SIS, SEIR, SEIZ, ... -
Роль інтегрованих моделей у прогнозуванні поширення дезінформації
Лавров, В. В. (ВНТУ, 2025)Стаття присвячена аналізу ролі інтегрованих моделей у прогнозуванні поширення дезінформації. Розглянуто різні підходи до моделювання, зокрема епідеміологічні, когнітивні, агент-орієнтовані та моделі на основі машинного ...