Автоматизована перевірка тверджень з використанням RAG-механізму та класифікації ознак
Автор
Дадиверін, В. В.
Бісікало, О. В.
Dadyverin, V.
Bisikalo, О.
Дата
2026Metadata
Показати повну інформаціюCollections
- JetIQ [214]
Анотації
The object of the study is the problem of automatic fact verification in a digital environment saturated with disinformation.
The paper analyzes modern approaches to fake news detection, including transformer architectures, neurosemantic and graph
models. Additionally, the limitations of existing methods are identified, in particular, the popularity of the use of static
features and poor generalization ability in a constant dynamic flow of information. The author proposes his own architecture
of a multimodal model that combines style classification, AI text detection and a fact-checking module, supported by the search
for relevant evidence through the RAG mechanism. The results of experiments on a test set of 1660 examples showed that
the model achieves a high Recall indicator (84.6 %), while maintaining an acceptable balance of accuracy (Accuracy – 78.6 %,
Precision – 74.4 %, F1 – 80.8 %). The obtained results indicate sufficient effectiveness of multi-task learning in truth-checking
systems. This allows for effective detection of fake news from various sources, albeit with a certain number of false positives,
but the balance between high Recall and lower Precision is justified, since the system is focused on reducing the possibility
of missing fake news. The proposed model is suitable for use in real-world monitoring of the information space, in particular
in the context of countering information threats. The effectiveness of the model is explained by the combination of several
independent features (style, origin, factuality) and a flexible signal integration system. In addition, the use of the RAG mechanism
provides an additional level of interpretability of the results obtained with reference to external sources. It can be used in online
platforms with a large number of unstructured messages. The approach can be expanded with multimedia analysis and adapted
for another specific language environment. Об"єктом дослідження є проблема автоматичної верифікації фактів у цифровому середовищі, насиченому дезінформацією. У роботі проаналізовано сучасні підходи до детекції фейкових новин, включаючи трансформерні архітектури, нейросемантичні та графові моделі. Додатково визначено обмеження наявних методів, зокрема популярність використання статичних ознак та погану здатність до узагальнення при постійному динамічному потоці інформації. Запропоновано власну архітектуру мультимодальної моделі, яка поєднує класифікацію стилю, детекцію AI-тексту та модуль перевірки фактів, підкріплений пошуком релевантних доказів через RAG-механізм. Результати експериментів на тестовому наборі із 1660 прикладів показали, що модель досягає високого показника Recall (84,6 %), зберігаючи прийнятну збалансованість точності (Accuracy – 78,6 %, Precision – 74,4 %, F1 – 80,8 %). Отримані результати свідчать про достатню ефективність мультизадачного навчання у системах перевірки на правдивість. Це дозволяє ефективно виявляти фейкові новини з різних джерел, хоча й із певною кількістю хибнопозитивних спрацювань, але баланс між високим Recall і нижчим Precision є обґрунтованим, оскільки система орієнтована на зменшення можливості пропуску фейкових новин. Запропонована модель є придатною для використання в реальних умовах моніторингу інформаційного простору, зокрема в контексті протидії інформаційним загрозам. Ефективність моделі пояснюється комбінацією кількох незалежних ознак (стиль, походження, фактологічність) та гнучкою системою інтеграції сигналів. Крім того, використання RAG-механізму забезпечує додатковий рівень інтерпретованості отриманих результатів з прив"язкою до зовнішніх джерел. Її можна застосовувати в онлайн-платформах з великою кількістю неструктурованих повідомлень. Підхід може бути розширений мультимедійним аналізом та адаптований для іншого визначеного мовного середовища.
URI:
https://ir.lib.vntu.edu.ua//handle/123456789/51742

