Показати скорочену інформацію

dc.contributor.authorЛевіцький, С. М.uk
dc.contributor.authorМокін, В. Б.uk
dc.contributor.authorLevitskyi, S. M.en
dc.contributor.authorMokin, V. B.en
dc.date.accessioned2025-10-28T12:41:14Z
dc.date.available2025-10-28T12:41:14Z
dc.date.issued2025
dc.identifier.citationЛевіцький С. М., Мокін В. Б. Метод синтезу бенчмарку для оцінювання робастної стійкості великих мовних моделей до дезінформації та маніпуляцій з фактами // Вісник Вінницького політехнічного інституту. 2025. № 1. С. 128-136. DOI: https://doi.org/10.31649/1997-9266-2025-178-1-128-136.uk
dc.identifier.issn1997-9266
dc.identifier.urihttps://ir.lib.vntu.edu.ua//handle/123456789/49883
dc.description.abstractWith the development and widespread adoption of intelligent assistants based on large language models (LLMs), testing these models by various criteria is becoming incringly important. One of the most crucial factors is their robustness against misinformation and manipulative tactics. Unstable models can pose serious risks in decision-making in the sphere of security, healthcare, and sensitive social issues. Such evaluations typically rely on benchmark tests based on labeled datasets. However, most existing benchmarks are designed for single-turn (context-free) questions, as LLM-based chatbots are primarily used in multi-turn conversational modes (with context). These benchmarks are highly dependent on the domain of application, meaning that instead of a single test, a method for synthesizing such tests is required.This paper proposes a method for synthesizing benchmarks to assess the robustness of LLMs against multi-turn manipulations involving statements that are definitively known to be false. The method enables the generation of a benchmark that constructs a sequence of manipulative transformations of a false statement, eventually leading an insufficiently robust LLM to accept the misinformation as valid. The method is based on: (1) forming a set of reference, exclusively false statements a given domain, followed by clustering and extracting typical variants; (2) creating sets of manipulation templates applicable to arbitrary statements using argumentation logic while maintaining their falsity; and (3) applying reinforcement learning to synthesize an optimal policy (strategy) for structuring sequences of fact manipulations foreach type of reference false statement. The proposed robustness criterion for LLMs is the percentage of false statements correctly classified as false.Experimental testing has confirmed the effectiveness of the proposed method. A benchmark was developed and used to evaluate the well-known LLM \"Llama 3.2 3B Instruct.\" This model exhibited moderate (65 %) robustness against misinformation and manipulations in a single-turn (context-free) mode. However, after applying the synthesized benchmark in a multi-turn conversational mode, its robustness dropped by more than half (to 30 %). This result demonstrated the vulnerability of LLMs to more complex manipulative scenarios and validated the effectiveness of the proposed benchmark synthesis method.en
dc.description.abstractЗ розвитком і поширенням інтелектуальних асистентів на основі великих мовних моделей (LLM) вагомішим стає тестування цих моделей за різними критеріями. Одним з найважливіших з них є робастна стійкість до дезінформації та маніпуляцій. Нестійкі моделі можуть нести серйозну загрозу рішенням на їхній основі у сфері безпеки, здоров`я, чутливих соціальних питань тощо. Для такого оцінювання використовують спеціальні тести на основі еталонних розмічених датасетів — бенчмарки. Але більшість подібних тестів розроблені для питань без контексту (одноходовий режим). Натомість, чат-боти на основі LLM використовуються, зазвичай, у багатоходовому діалоговому режимі (з контекстом). Такі бенчмарки суттєво залежать від предметної сфери їхнього використання, а отже, потрібен не лише сам тест, а й метод його синтезу. У статті запропоновано метод синтезу бенчмарків для оцінювання робастної стійкості LLM до багатоходових маніпуляцій з твердженнями, про які наперед точно відомо, що усі вони хибні. Метод дозволяє синтезувати бенчмарк, який сформує таку послідовність маніпуляцій хибного твердження, з яким врешті-решт LLM з поганою стійкістю погодиться, що цей фейк, насправді не є фейком. Метод основано на формуванні множини еталонних, виключно хибних, тверджень на основі заданої предметної області з їхньою подальшою кластеризацією та виділенням типових варіантів, на формуванні множин шаблонів для маніпуляцій з довільними твердженнями за використання логіки аргументації, без зміни хибності цих тверджень, та на використанні машинного навчання з підкріпленням для синтезу оптимальної політики (стратегії) формування послідовності маніпуляцій з фактами для кожного виду типового варіанта еталонних хибних тверджень. Запропоновано як критерій робастності LLM використовувати відсоток класифікації хибних тверджень як дійсно хибні. Експериментальні випробування довели ефективність запропонованого методу. Побудовано бенчмарк, який використано для оцінювання відомої LLM «Llama 3.2 3B Instruct». Ця модель мала помірну (65 %) робастну стійкість до дезінформації та маніпуляцій в одноходовому режимі (без контексту). Але після застосування синтезованого за розробленим методом бенчмарку з діалоговим режимом її робастність зменшилась у понад 2 рази (до 30 %). Це довело вразливість LLM до складніших маніпулятивних сценаріїв та продемонструвало ефективність запропонованого методу синтезу таких бенчмарків.uk
dc.language.isouk_UAuk_UA
dc.publisherВНТУuk
dc.relation.ispartofВісник Вінницького політехнічного інституту. № 1 : 128-136.uk
dc.relation.urihttps://visnyk.vntu.edu.ua/index.php/visnyk/article/view/3175
dc.subjectбенчмаркuk
dc.subjectінтелектуальна технологіяuk
dc.subjectштучний інтелектuk
dc.subjectвеликі мовні моделіuk
dc.subjectнавчання з підкріпленнямuk
dc.subjectманіпуляціяuk
dc.subjectдезінформаціяuk
dc.subjectоптимізація моделіuk
dc.subjectbenchmarken
dc.subjectintelligent technologyen
dc.subjectartificial intelligenceen
dc.subjectlarge language modelsen
dc.subjectreinforcement learningen
dc.subjectmanipulationen
dc.subjectdisinformationen
dc.subjectmodel optimizationen
dc.titleМетод синтезу бенчмарку для оцінювання робастної стійкості великих мовних моделей до дезінформації та маніпуляцій з фактамиuk
dc.title.alternativeMethod for Synthesizing a Benchmark to Evaluate the Robust Resilience of Large Language Models to Disinformation and Factual Manipulationen
dc.typeArticle, professional native edition
dc.typeArticle
dc.identifier.udc004.8: 004.91
dc.relation.referencesPhilip J. Fleming, and John J. Wallace, “How not to lie with statistics: the correct way to summarize benchmark results,” Communications of the ACM, no. 29 (3), pp. 218-221, 1986. https://doi.org/10.1145/5666.5673en
dc.relation.referencesJ. Wei, Ng. Karina, et al.,“Measuring short-form factuality in large language models,” arXiv preprint, arXiv:2411.04368, Nov., 2024.en
dc.relation.referencesC. E. Jimenez, et al., “SWE-bench: Can Language Models Resolve Real-World GitHub Issues?,” arXiv preprint, arXiv:2310.06770, 2024.en
dc.relation.referencesS. Lin et al., “TruthfulQA: Measuring How Models Mimic Human Falsehoods,” arXiv preprint, arXiv:2109.07958v2, May, 2022en
dc.relation.referencesJ. Thorne, et al., “FEVER: a large-scale dataset for Fact Extraction and VERification,” arXiv preprint, arXiv:1803.05355v3, Dec., 2018.en
dc.relation.referencesM. Andriushchenko, et al., “AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents,” arXiv preprint, arXiv:2410.09024, Oct., 2024.en
dc.relation.referencesS. Bringsjord, et al., Argument-based inductive logics, with coverage of compromised perception, Jan., 2024, https://doi.org/10.3389/frai.2023.1144569 .en
dc.relation.referencesJ. Schulman, “Proximal Policy Optimization Algorithms,” arXiv preprin, arXiv:1707.06347, Aug., 2017.en
dc.relation.referencesМ. В. Дратований, і В. Б. Мокін, «Інтелектуальний метод з підкріпленням синтезу оптимального конвеєру операцій попереднього оброблення даних у задачах машинного навчання,» Наукові праці ВНТУ, вип. 4, 2022. https://doi.org/10.31649/2307-5392-2022-4-15-24 .uk
dc.identifier.doihttps://doi.org/10.31649/1997-9266-2025-178-1-128-136


Файли в цьому документі

Thumbnail

Даний документ включений в наступну(і) колекцію(ї)

Показати скорочену інформацію