| dc.contributor.author | Левіцький, С. М. | uk |
| dc.contributor.author | Мокін, В. Б. | uk |
| dc.contributor.author | Levitskyi, S. M. | en |
| dc.contributor.author | Mokin, V. B. | en |
| dc.date.accessioned | 2025-10-28T12:41:14Z | |
| dc.date.available | 2025-10-28T12:41:14Z | |
| dc.date.issued | 2025 | |
| dc.identifier.citation | Левіцький С. М., Мокін В. Б. Метод синтезу бенчмарку для оцінювання робастної стійкості великих мовних моделей до дезінформації та маніпуляцій з фактами // Вісник Вінницького політехнічного інституту. 2025. № 1. С. 128-136. DOI: https://doi.org/10.31649/1997-9266-2025-178-1-128-136. | uk |
| dc.identifier.issn | 1997-9266 | |
| dc.identifier.uri | https://ir.lib.vntu.edu.ua//handle/123456789/49883 | |
| dc.description.abstract | With the development and widespread adoption of intelligent assistants based on large language models (LLMs), testing these models by various criteria is becoming incringly important. One of the most crucial factors is their robustness against misinformation and manipulative tactics. Unstable models can pose serious risks in decision-making in the sphere of security, healthcare, and sensitive social issues. Such evaluations typically rely on benchmark tests based on labeled datasets. However, most existing benchmarks are designed for single-turn (context-free) questions, as LLM-based chatbots are primarily used in multi-turn conversational modes (with context). These benchmarks are highly dependent on the domain of application, meaning that instead of a single test, a method for synthesizing such tests is required.This paper proposes a method for synthesizing benchmarks to assess the robustness of LLMs against multi-turn manipulations involving statements that are definitively known to be false. The method enables the generation of a benchmark that constructs a sequence of manipulative transformations of a false statement, eventually leading an insufficiently robust LLM to accept the misinformation as valid. The method is based on: (1) forming a set of reference, exclusively false statements a given domain, followed by clustering and extracting typical variants; (2) creating sets of manipulation templates applicable to arbitrary statements using argumentation logic while maintaining their falsity; and (3) applying reinforcement learning to synthesize an optimal policy (strategy) for structuring sequences of fact manipulations foreach type of reference false statement. The proposed robustness criterion for LLMs is the percentage of false statements correctly classified as false.Experimental testing has confirmed the effectiveness of the proposed method. A benchmark was developed and used to evaluate the well-known LLM \"Llama 3.2 3B Instruct.\" This model exhibited moderate (65 %) robustness against misinformation and manipulations in a single-turn (context-free) mode. However, after applying the synthesized benchmark in a multi-turn conversational mode, its robustness dropped by more than half (to 30 %). This result demonstrated the vulnerability of LLMs to more complex manipulative scenarios and validated the effectiveness of the proposed benchmark synthesis method. | en |
| dc.description.abstract | З розвитком і поширенням інтелектуальних асистентів на основі великих мовних моделей (LLM) вагомішим стає тестування цих моделей за різними критеріями. Одним з найважливіших з них є робастна стійкість до дезінформації та маніпуляцій. Нестійкі моделі можуть нести серйозну загрозу рішенням на їхній основі у сфері безпеки, здоров`я, чутливих соціальних питань тощо. Для такого оцінювання використовують спеціальні тести на основі еталонних розмічених датасетів — бенчмарки. Але більшість подібних тестів розроблені для питань без контексту (одноходовий режим). Натомість, чат-боти на основі LLM використовуються, зазвичай, у багатоходовому діалоговому режимі (з контекстом). Такі бенчмарки суттєво залежать від предметної сфери їхнього використання, а отже, потрібен не лише сам тест, а й метод його синтезу.
У статті запропоновано метод синтезу бенчмарків для оцінювання робастної стійкості LLM до багатоходових маніпуляцій з твердженнями, про які наперед точно відомо, що усі вони хибні. Метод дозволяє синтезувати бенчмарк, який сформує таку послідовність маніпуляцій хибного твердження, з яким врешті-решт LLM з поганою стійкістю погодиться, що цей фейк, насправді не є фейком. Метод основано на формуванні множини еталонних, виключно хибних, тверджень на основі заданої предметної області з їхньою подальшою кластеризацією та виділенням типових варіантів, на формуванні множин шаблонів для маніпуляцій з довільними твердженнями за використання логіки аргументації, без зміни хибності цих тверджень, та на використанні машинного навчання з підкріпленням для синтезу оптимальної політики (стратегії) формування послідовності маніпуляцій з фактами для кожного виду типового варіанта еталонних хибних тверджень. Запропоновано як критерій робастності LLM використовувати відсоток класифікації хибних тверджень як дійсно хибні.
Експериментальні випробування довели ефективність запропонованого методу. Побудовано бенчмарк, який використано для оцінювання відомої LLM «Llama 3.2 3B Instruct». Ця модель мала помірну (65 %) робастну стійкість до дезінформації та маніпуляцій в одноходовому режимі (без контексту). Але після застосування синтезованого за розробленим методом бенчмарку з діалоговим режимом її робастність зменшилась у понад 2 рази (до 30 %). Це довело вразливість LLM до складніших маніпулятивних сценаріїв та продемонструвало ефективність запропонованого методу синтезу таких бенчмарків. | uk |
| dc.language.iso | uk_UA | uk_UA |
| dc.publisher | ВНТУ | uk |
| dc.relation.ispartof | Вісник Вінницького політехнічного інституту. № 1 : 128-136. | uk |
| dc.relation.uri | https://visnyk.vntu.edu.ua/index.php/visnyk/article/view/3175 | |
| dc.subject | бенчмарк | uk |
| dc.subject | інтелектуальна технологія | uk |
| dc.subject | штучний інтелект | uk |
| dc.subject | великі мовні моделі | uk |
| dc.subject | навчання з підкріпленням | uk |
| dc.subject | маніпуляція | uk |
| dc.subject | дезінформація | uk |
| dc.subject | оптимізація моделі | uk |
| dc.subject | benchmark | en |
| dc.subject | intelligent technology | en |
| dc.subject | artificial intelligence | en |
| dc.subject | large language models | en |
| dc.subject | reinforcement learning | en |
| dc.subject | manipulation | en |
| dc.subject | disinformation | en |
| dc.subject | model optimization | en |
| dc.title | Метод синтезу бенчмарку для оцінювання робастної стійкості великих мовних моделей до дезінформації та маніпуляцій з фактами | uk |
| dc.title.alternative | Method for Synthesizing a Benchmark to Evaluate the Robust Resilience of Large Language Models to Disinformation and Factual Manipulation | en |
| dc.type | Article, professional native edition | |
| dc.type | Article | |
| dc.identifier.udc | 004.8: 004.91 | |
| dc.relation.references | Philip J. Fleming, and John J. Wallace, “How not to lie with statistics: the correct way to summarize benchmark results,”
Communications of the ACM, no. 29 (3), pp. 218-221, 1986. https://doi.org/10.1145/5666.5673 | en |
| dc.relation.references | J. Wei, Ng. Karina, et al.,“Measuring short-form factuality in large language models,” arXiv preprint, arXiv:2411.04368,
Nov., 2024. | en |
| dc.relation.references | C. E. Jimenez, et al., “SWE-bench: Can Language Models Resolve Real-World GitHub Issues?,” arXiv preprint,
arXiv:2310.06770, 2024. | en |
| dc.relation.references | S. Lin et al., “TruthfulQA: Measuring How Models Mimic Human Falsehoods,” arXiv preprint, arXiv:2109.07958v2,
May, 2022 | en |
| dc.relation.references | J. Thorne, et al., “FEVER: a large-scale dataset for Fact Extraction and VERification,” arXiv preprint,
arXiv:1803.05355v3, Dec., 2018. | en |
| dc.relation.references | M. Andriushchenko, et al., “AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents,” arXiv preprint,
arXiv:2410.09024, Oct., 2024. | en |
| dc.relation.references | S. Bringsjord, et al., Argument-based inductive logics, with coverage of compromised perception, Jan., 2024,
https://doi.org/10.3389/frai.2023.1144569 . | en |
| dc.relation.references | J. Schulman, “Proximal Policy Optimization Algorithms,” arXiv preprin, arXiv:1707.06347, Aug., 2017. | en |
| dc.relation.references | М. В. Дратований, і В. Б. Мокін, «Інтелектуальний метод з підкріпленням синтезу оптимального конвеєру
операцій попереднього оброблення даних у задачах машинного навчання,» Наукові праці ВНТУ, вип. 4, 2022.
https://doi.org/10.31649/2307-5392-2022-4-15-24 . | uk |
| dc.identifier.doi | https://doi.org/10.31649/1997-9266-2025-178-1-128-136 | |