Аналіз еталонних тестів стійкості великих мовних моделей до дезінформації та різних видів маніпуляцій
Author
Левіцький, С. М.
Мокін, В. Б.
Levitskyi, S. M.
Mokin, V. B.
Date
2025Metadata
Show full item recordAbstract
Розглянуто найновіші підходи до оцінювання та підвищення стійкості великих мовних моделей до
дезінформації та маніпулятивних атак, таких як дрейф знань, ін'єкція промптів та інші. Узагальнено сучасні
виклики, які стоять перед дослідниками мовних моделей та підприємцями, які інтегрують моделі в свої
програмні продукти. Запропоновано практичні рекомендації до підвищення стійкості мовних моделей, що має
особливе значення для їхнього безпечного застосування в критично важливих галузях. Виявлено, що великі мовні
моделі потребують всебічного тестування, тому також запропоновано удосконалення бенчмарку авторського
MST з розширенням критеріїв оцінювання. The article discusses the latest approaches to evaluating and enhancing the robustness of large language models against misinformation and manipulative attacks, such as knowledge drift, prompt injection, and others. It summarizes contemporary challenges faced by language model researchers and entrepreneurs integrating these models into their software products. Practical recommendations are proposed to improve the robustness of language models, which is particularly important for their safe application in critical industries. It was found that large language models require comprehensive testing, therefore, an improvement of the author’s MST benchmark with an expansion of the evaluation criteria was also proposed.
URI:
https://ir.lib.vntu.edu.ua//handle/123456789/49249

