Метод синтезу бенчмарку для оцінювання робастної стійкості великих мовних моделей до дезінформації та маніпуляцій з фактами
Author
Левіцький, С. М.
Мокін, В. Б.
Levitskyi, S. M.
Mokin, V. B.
Date
2025Metadata
Show full item recordCollections
Abstract
With the development and widespread adoption of intelligent assistants based on large language models (LLMs), testing these models by various criteria is becoming incringly important. One of the most crucial factors is their robustness against misinformation and manipulative tactics. Unstable models can pose serious risks in decision-making in the sphere of security, healthcare, and sensitive social issues. Such evaluations typically rely on benchmark tests based on labeled datasets. However, most existing benchmarks are designed for single-turn (context-free) questions, as LLM-based chatbots are primarily used in multi-turn conversational modes (with context). These benchmarks are highly dependent on the domain of application, meaning that instead of a single test, a method for synthesizing such tests is required.This paper proposes a method for synthesizing benchmarks to assess the robustness of LLMs against multi-turn manipulations involving statements that are definitively known to be false. The method enables the generation of a benchmark that constructs a sequence of manipulative transformations of a false statement, eventually leading an insufficiently robust LLM to accept the misinformation as valid. The method is based on: (1) forming a set of reference, exclusively false statements a given domain, followed by clustering and extracting typical variants; (2) creating sets of manipulation templates applicable to arbitrary statements using argumentation logic while maintaining their falsity; and (3) applying reinforcement learning to synthesize an optimal policy (strategy) for structuring sequences of fact manipulations foreach type of reference false statement. The proposed robustness criterion for LLMs is the percentage of false statements correctly classified as false.Experimental testing has confirmed the effectiveness of the proposed method. A benchmark was developed and used to evaluate the well-known LLM \"Llama 3.2 3B Instruct.\" This model exhibited moderate (65 %) robustness against misinformation and manipulations in a single-turn (context-free) mode. However, after applying the synthesized benchmark in a multi-turn conversational mode, its robustness dropped by more than half (to 30 %). This result demonstrated the vulnerability of LLMs to more complex manipulative scenarios and validated the effectiveness of the proposed benchmark synthesis method. З розвитком і поширенням інтелектуальних асистентів на основі великих мовних моделей (LLM) вагомішим стає тестування цих моделей за різними критеріями. Одним з найважливіших з них є робастна стійкість до дезінформації та маніпуляцій. Нестійкі моделі можуть нести серйозну загрозу рішенням на їхній основі у сфері безпеки, здоров`я, чутливих соціальних питань тощо. Для такого оцінювання використовують спеціальні тести на основі еталонних розмічених датасетів — бенчмарки. Але більшість подібних тестів розроблені для питань без контексту (одноходовий режим). Натомість, чат-боти на основі LLM використовуються, зазвичай, у багатоходовому діалоговому режимі (з контекстом). Такі бенчмарки суттєво залежать від предметної сфери їхнього використання, а отже, потрібен не лише сам тест, а й метод його синтезу.
У статті запропоновано метод синтезу бенчмарків для оцінювання робастної стійкості LLM до багатоходових маніпуляцій з твердженнями, про які наперед точно відомо, що усі вони хибні. Метод дозволяє синтезувати бенчмарк, який сформує таку послідовність маніпуляцій хибного твердження, з яким врешті-решт LLM з поганою стійкістю погодиться, що цей фейк, насправді не є фейком. Метод основано на формуванні множини еталонних, виключно хибних, тверджень на основі заданої предметної області з їхньою подальшою кластеризацією та виділенням типових варіантів, на формуванні множин шаблонів для маніпуляцій з довільними твердженнями за використання логіки аргументації, без зміни хибності цих тверджень, та на використанні машинного навчання з підкріпленням для синтезу оптимальної політики (стратегії) формування послідовності маніпуляцій з фактами для кожного виду типового варіанта еталонних хибних тверджень. Запропоновано як критерій робастності LLM використовувати відсоток класифікації хибних тверджень як дійсно хибні.
Експериментальні випробування довели ефективність запропонованого методу. Побудовано бенчмарк, який використано для оцінювання відомої LLM «Llama 3.2 3B Instruct». Ця модель мала помірну (65 %) робастну стійкість до дезінформації та маніпуляцій в одноходовому режимі (без контексту). Але після застосування синтезованого за розробленим методом бенчмарку з діалоговим режимом її робастність зменшилась у понад 2 рази (до 30 %). Це довело вразливість LLM до складніших маніпулятивних сценаріїв та продемонструвало ефективність запропонованого методу синтезу таких бенчмарків.
URI:
https://ir.lib.vntu.edu.ua//handle/123456789/49883

