Інтелектуальна технологія виявлення текстових діпфейків з використанням великих мовних моделей
Author
Мокін, В. Б.
Варер, Б. Ю.
Левіцький, С. М.
Mokin, V.
Varer, B.
Levitskyi, S.
Date
2024Metadata
Show full item recordCollections
Abstract
Стрімкий розвиток великих мовних моделей в останні роки породжує важливу проблему — зростання обсягу синтезованих текстів в інформаційному середовищі, що викликає загрозу поширення дезінформації. Відповідно удосконалення технологій виявлення таких текстів стає актуальним завданням. В статті запропоновано інтелектуальну технологію автоматичної ідентифікації текстів, згенерованих за допомогою штучного інтелекту, зокрема великими мовними моделями. Дослідження базується на аналізі розв’язків конкурсу «LLM — Detect AI Generated Text» на платформі Kaggle. Для цього побудовано датасет, що містить приклади текстів двох класів: ті, що написані людиною, та ті, що згенеровані великими мовними моделями. Датасет зібрано з даних, що знаходяться в публічному доступі. Також проведено розвідувальний аналіз даних та продемонстровано основні особливості підготовленого датасету. Проаналізовано популярні методи розв’язання задачі ідентифікації згенерованих великими мовними моделями текстів в межах конкурсу на платформі Kaggle. Формалізовано загальну структуру рішення та обґрунтовано основні фактори впливу на точність ідентифікації текстів, згенерованих штучним інтелектом. Розроблено алгоритм для підвищення точності рішення завдяки операціям перед- та післяоброблення, покращення тренувального датасету, оптимізації вибору моделей та методу їхнього ансамблювання тощо. Проведено експерименти, які продемонстрували ефективність запропонованої інтелектуальної технології. Це дослідження робить внесок у розвиток технологій боротьби з дезінформацією та підкреслює важливість пошуку нових методів виявлення штучно створених текстів у сучасному інформаційному середовищі. The rapid development of large language models in recent years has generated a significant problem — the increase in
the volume of synthesized texts in the information environment, which poses a threat of the spread of misinformation. Accordingly, improving technologies for detecting such texts becomes a relevant ask. This article proposes an intelligent technology for the automatic identification of texts generated by artificial intelligence, especially large language models. The research is based on the analysis of solutions from the "LLM — Detect AI Generated Text" competition on the Kaggle platform. For this purpose, a dataset was constructed that contains examples of texts from two classes: those written by humans and those generated by large language models. The dataset was compiled from data that is publicly available. An exploratory data analysis was also conducted, demonstrating the main features of the prepared dataset. The article analyzes popular solutions for the problem of identifying texts generated by large language models within the Kaggle competition. It formalizes the general structure of the solution and justifies the main factors affecting the accuracy of identifying texts generated by artificial intelligence. An algorithm was developed to increase the accuracy of the solution through pre-processing and post-processing operations, improving the training dataset, optimizing the selection of models, and their ensemble method, among others. Experiments were conducted, demonstrating the effectiveness of the proposed intelligent technology. This research contributes to the development of technologies to combat misinformation and highlights the importance of finding new methods to detect artificially created texts in modern information environment.
URI:
https://ir.lib.vntu.edu.ua//handle/123456789/42885