Метод синтезу бенчмарку для оцінювання робастної стійкості великих мовних моделей до дезінформації та маніпуляцій з фактами

Левіцький, С. М.; Мокін, В. Б.; Levitskyi, S. M.; Mokin, V. B.

dc.contributor.author	Левіцький, С. М.	uk
dc.contributor.author	Мокін, В. Б.	uk
dc.contributor.author	Levitskyi, S. M.	en
dc.contributor.author	Mokin, V. B.	en
dc.date.accessioned	2025-10-28T12:41:14Z
dc.date.available	2025-10-28T12:41:14Z
dc.date.issued	2025
dc.identifier.citation	Левіцький С. М., Мокін В. Б. Метод синтезу бенчмарку для оцінювання робастної стійкості великих мовних моделей до дезінформації та маніпуляцій з фактами // Вісник Вінницького політехнічного інституту. 2025. № 1. С. 128-136. DOI: https://doi.org/10.31649/1997-9266-2025-178-1-128-136.	uk
dc.identifier.issn	1997-9266
dc.identifier.uri	https://ir.lib.vntu.edu.ua//handle/123456789/49883
dc.description.abstract	With the development and widespread adoption of intelligent assistants based on large language models (LLMs), testing these models by various criteria is becoming incringly important. One of the most crucial factors is their robustness against misinformation and manipulative tactics. Unstable models can pose serious risks in decision-making in the sphere of security, healthcare, and sensitive social issues. Such evaluations typically rely on benchmark tests based on labeled datasets. However, most existing benchmarks are designed for single-turn (context-free) questions, as LLM-based chatbots are primarily used in multi-turn conversational modes (with context). These benchmarks are highly dependent on the domain of application, meaning that instead of a single test, a method for synthesizing such tests is required.This paper proposes a method for synthesizing benchmarks to assess the robustness of LLMs against multi-turn manipulations involving statements that are definitively known to be false. The method enables the generation of a benchmark that constructs a sequence of manipulative transformations of a false statement, eventually leading an insufficiently robust LLM to accept the misinformation as valid. The method is based on: (1) forming a set of reference, exclusively false statements a given domain, followed by clustering and extracting typical variants; (2) creating sets of manipulation templates applicable to arbitrary statements using argumentation logic while maintaining their falsity; and (3) applying reinforcement learning to synthesize an optimal policy (strategy) for structuring sequences of fact manipulations foreach type of reference false statement. The proposed robustness criterion for LLMs is the percentage of false statements correctly classified as false.Experimental testing has confirmed the effectiveness of the proposed method. A benchmark was developed and used to evaluate the well-known LLM \"Llama 3.2 3B Instruct.\" This model exhibited moderate (65 %) robustness against misinformation and manipulations in a single-turn (context-free) mode. However, after applying the synthesized benchmark in a multi-turn conversational mode, its robustness dropped by more than half (to 30 %). This result demonstrated the vulnerability of LLMs to more complex manipulative scenarios and validated the effectiveness of the proposed benchmark synthesis method.	en
dc.description.abstract	З розвитком і поширенням інтелектуальних асистентів на основі великих мовних моделей (LLM) вагомішим стає тестування цих моделей за різними критеріями. Одним з найважливіших з них є робастна стійкість до дезінформації та маніпуляцій. Нестійкі моделі можуть нести серйозну загрозу рішенням на їхній основі у сфері безпеки, здоров`я, чутливих соціальних питань тощо. Для такого оцінювання використовують спеціальні тести на основі еталонних розмічених датасетів — бенчмарки. Але більшість подібних тестів розроблені для питань без контексту (одноходовий режим). Натомість, чат-боти на основі LLM використовуються, зазвичай, у багатоходовому діалоговому режимі (з контекстом). Такі бенчмарки суттєво залежать від предметної сфери їхнього використання, а отже, потрібен не лише сам тест, а й метод його синтезу. У статті запропоновано метод синтезу бенчмарків для оцінювання робастної стійкості LLM до багатоходових маніпуляцій з твердженнями, про які наперед точно відомо, що усі вони хибні. Метод дозволяє синтезувати бенчмарк, який сформує таку послідовність маніпуляцій хибного твердження, з яким врешті-решт LLM з поганою стійкістю погодиться, що цей фейк, насправді не є фейком. Метод основано на формуванні множини еталонних, виключно хибних, тверджень на основі заданої предметної області з їхньою подальшою кластеризацією та виділенням типових варіантів, на формуванні множин шаблонів для маніпуляцій з довільними твердженнями за використання логіки аргументації, без зміни хибності цих тверджень, та на використанні машинного навчання з підкріпленням для синтезу оптимальної політики (стратегії) формування послідовності маніпуляцій з фактами для кожного виду типового варіанта еталонних хибних тверджень. Запропоновано як критерій робастності LLM використовувати відсоток класифікації хибних тверджень як дійсно хибні. Експериментальні випробування довели ефективність запропонованого методу. Побудовано бенчмарк, який використано для оцінювання відомої LLM «Llama 3.2 3B Instruct». Ця модель мала помірну (65 %) робастну стійкість до дезінформації та маніпуляцій в одноходовому режимі (без контексту). Але після застосування синтезованого за розробленим методом бенчмарку з діалоговим режимом її робастність зменшилась у понад 2 рази (до 30 %). Це довело вразливість LLM до складніших маніпулятивних сценаріїв та продемонструвало ефективність запропонованого методу синтезу таких бенчмарків.	uk
dc.language.iso	uk_UA	uk_UA
dc.publisher	ВНТУ	uk
dc.relation.ispartof	Вісник Вінницького політехнічного інституту. № 1 : 128-136.	uk
dc.relation.uri	https://visnyk.vntu.edu.ua/index.php/visnyk/article/view/3175
dc.subject	бенчмарк	uk
dc.subject	інтелектуальна технологія	uk
dc.subject	штучний інтелект	uk
dc.subject	великі мовні моделі	uk
dc.subject	навчання з підкріпленням	uk
dc.subject	маніпуляція	uk
dc.subject	дезінформація	uk
dc.subject	оптимізація моделі	uk
dc.subject	benchmark	en
dc.subject	intelligent technology	en
dc.subject	artificial intelligence	en
dc.subject	large language models	en
dc.subject	reinforcement learning	en
dc.subject	manipulation	en
dc.subject	disinformation	en
dc.subject	model optimization	en
dc.title	Метод синтезу бенчмарку для оцінювання робастної стійкості великих мовних моделей до дезінформації та маніпуляцій з фактами	uk
dc.title.alternative	Method for Synthesizing a Benchmark to Evaluate the Robust Resilience of Large Language Models to Disinformation and Factual Manipulation	en
dc.type	Article, professional native edition
dc.type	Article
dc.identifier.udc	004.8: 004.91
dc.relation.references	Philip J. Fleming, and John J. Wallace, “How not to lie with statistics: the correct way to summarize benchmark results,” Communications of the ACM, no. 29 (3), pp. 218-221, 1986. https://doi.org/10.1145/5666.5673	en
dc.relation.references	J. Wei, Ng. Karina, et al.,“Measuring short-form factuality in large language models,” arXiv preprint, arXiv:2411.04368, Nov., 2024.	en
dc.relation.references	C. E. Jimenez, et al., “SWE-bench: Can Language Models Resolve Real-World GitHub Issues?,” arXiv preprint, arXiv:2310.06770, 2024.	en
dc.relation.references	S. Lin et al., “TruthfulQA: Measuring How Models Mimic Human Falsehoods,” arXiv preprint, arXiv:2109.07958v2, May, 2022	en
dc.relation.references	J. Thorne, et al., “FEVER: a large-scale dataset for Fact Extraction and VERification,” arXiv preprint, arXiv:1803.05355v3, Dec., 2018.	en
dc.relation.references	M. Andriushchenko, et al., “AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents,” arXiv preprint, arXiv:2410.09024, Oct., 2024.	en
dc.relation.references	S. Bringsjord, et al., Argument-based inductive logics, with coverage of compromised perception, Jan., 2024, https://doi.org/10.3389/frai.2023.1144569 .	en
dc.relation.references	J. Schulman, “Proximal Policy Optimization Algorithms,” arXiv preprin, arXiv:1707.06347, Aug., 2017.	en
dc.relation.references	М. В. Дратований, і В. Б. Мокін, «Інтелектуальний метод з підкріпленням синтезу оптимального конвеєру операцій попереднього оброблення даних у задачах машинного навчання,» Наукові праці ВНТУ, вип. 4, 2022. https://doi.org/10.31649/2307-5392-2022-4-15-24 .	uk
dc.identifier.doi	https://doi.org/10.31649/1997-9266-2025-178-1-128-136

Файли в цьому документі

Ім'я:: 187426.pdf
Розмір:: 705.2Kb
Формат:: PDF

Відкрити

Даний документ включений в наступну(і) колекцію(ї)

Наукові роботи каф. САІТ [443]
статті, матеріали конференцій
Вісник Вінницького політехнічного інституту. 2025. № 1 [10]

Показати скорочену інформацію