Показати скорочену інформацію

dc.contributor.authorМокін, В. Б.uk
dc.contributor.authorВарер, Б. Ю.uk
dc.contributor.authorЛевіцький, С. М.uk
dc.contributor.authorMokin, V.en
dc.contributor.authorVarer, B.en
dc.contributor.authorLevitskyi, S.en
dc.date.accessioned2024-06-25T07:21:23Z
dc.date.available2024-06-25T07:21:23Z
dc.date.issued2024
dc.identifier.citationМокін В. Б., Варер Б. Ю., Левіцький С. М. Інтелектуальна технологія виявлення текстових діпфейків з використанням великих мовних моделей. Вісник Вінницького політехнічного інституту. 2024. № 1. С. 110-120.uk
dc.identifier.issn1997–9266
dc.identifier.issn1997–9274
dc.identifier.urihttps://ir.lib.vntu.edu.ua//handle/123456789/42885
dc.description.abstractСтрімкий розвиток великих мовних моделей в останні роки породжує важливу проблему — зростання обсягу синтезованих текстів в інформаційному середовищі, що викликає загрозу поширення дезінформації. Відповідно удосконалення технологій виявлення таких текстів стає актуальним завданням. В статті запропоновано інтелектуальну технологію автоматичної ідентифікації текстів, згенерованих за допомогою штучного інтелекту, зокрема великими мовними моделями. Дослідження базується на аналізі розв’язків конкурсу «LLM — Detect AI Generated Text» на платформі Kaggle. Для цього побудовано датасет, що містить приклади текстів двох класів: ті, що написані людиною, та ті, що згенеровані великими мовними моделями. Датасет зібрано з даних, що знаходяться в публічному доступі. Також проведено розвідувальний аналіз даних та продемонстровано основні особливості підготовленого датасету. Проаналізовано популярні методи розв’язання задачі ідентифікації згенерованих великими мовними моделями текстів в межах конкурсу на платформі Kaggle. Формалізовано загальну структуру рішення та обґрунтовано основні фактори впливу на точність ідентифікації текстів, згенерованих штучним інтелектом. Розроблено алгоритм для підвищення точності рішення завдяки операціям перед- та післяоброблення, покращення тренувального датасету, оптимізації вибору моделей та методу їхнього ансамблювання тощо. Проведено експерименти, які продемонстрували ефективність запропонованої інтелектуальної технології. Це дослідження робить внесок у розвиток технологій боротьби з дезінформацією та підкреслює важливість пошуку нових методів виявлення штучно створених текстів у сучасному інформаційному середовищі.uk
dc.description.abstractThe rapid development of large language models in recent years has generated a significant problem — the increase in the volume of synthesized texts in the information environment, which poses a threat of the spread of misinformation. Accordingly, improving technologies for detecting such texts becomes a relevant ask. This article proposes an intelligent technology for the automatic identification of texts generated by artificial intelligence, especially large language models. The research is based on the analysis of solutions from the "LLM — Detect AI Generated Text" competition on the Kaggle platform. For this purpose, a dataset was constructed that contains examples of texts from two classes: those written by humans and those generated by large language models. The dataset was compiled from data that is publicly available. An exploratory data analysis was also conducted, demonstrating the main features of the prepared dataset. The article analyzes popular solutions for the problem of identifying texts generated by large language models within the Kaggle competition. It formalizes the general structure of the solution and justifies the main factors affecting the accuracy of identifying texts generated by artificial intelligence. An algorithm was developed to increase the accuracy of the solution through pre-processing and post-processing operations, improving the training dataset, optimizing the selection of models, and their ensemble method, among others. Experiments were conducted, demonstrating the effectiveness of the proposed intelligent technology. This research contributes to the development of technologies to combat misinformation and highlights the importance of finding new methods to detect artificially created texts in modern information environment.en
dc.language.isouk_UAuk_UA
dc.publisherВНТУuk
dc.relation.ispartofВісник Вінницького політехнічного інституту. № 1 : 110-120.uk
dc.relation.urihttps://visnyk.vntu.edu.ua/index.php/visnyk/article/view/2984
dc.subjectтекстові діпфейкиuk
dc.subjectдезінформаціяuk
dc.subjectштучний інтелектuk
dc.subjectвеликі мовні моделіuk
dc.subjectKaggleen
dc.subjectідентифікація синтезованих текстівuk
dc.subjectінтелектуальна технологіяuk
dc.subjectчат-ботиuk
dc.subjecttext deepfakesen
dc.subjectmisinformationen
dc.subjectartificial intelligenceen
dc.subjectlarge language modelsen
dc.subjectidentification of synthesized textsen
dc.subjectintelligent technologyen
dc.subjectchat-botsen
dc.titleІнтелектуальна технологія виявлення текстових діпфейків з використанням великих мовних моделейuk
dc.title.alternativeIntelligent technology for detecting text-based deepfakes using large language modelsen
dc.typeArticle
dc.identifier.udc004.8: 004.91
dc.relation.referencesR. R. Soto et al., “Few-Shot Detection of Machine-Generated Text using Style Representations,” arXiv preprint, arXiv:2401.06712, 2024.en
dc.relation.referencesB. P. Kumar, M. S. Ahmed, and M. Sadanandam, “DistilBERT: A Novel Approach to Detect Text Generated by Large Language Models (LLM),” Feb. 2024, https://doi.org/10.21203/rs.3.rs-3909387/v1 .en
dc.relation.referencesZ. Wu, and H. Xiang, “MFD: Multi-Feature Detection of LLM-Generated Text”, Aug. 2023, https://doi.org/10.21203/rs.3.rs-3226684/v1 .en
dc.relation.referencesOpenAI, “New AI classifier for indicating AI-written text,” 2023. [Online]. Available: https://openai.com/blog/new-aiclassifier-for-indicating-ai-written-text. Accessed: Feb 15, 2024.en
dc.relation.referencesВ. Б. Мокін, і М. В. Дратований, «Інтелектуальний метод з підкріпленням синтезу оптимального конвеєру операцій попереднього оброблення даних у задачах машинного навчання,» Наукові праці ВНТУ, вип. 4, Груд 2022. https://doi.org/10.31649/2307-5376-2022-4-15-25 .uk
dc.relation.referencesJ. King, P. Baffour, S. Crossley, R. Holbrook, and M. Demkin, “LLM – Detect AI Generated Text,” 2023 [Online]. Available: https://www.kaggle.com/competitions/llm-detect-ai-generated-text. Accessed: Feb 15, 2024.en
dc.relation.referencesN. Broad “R100_Ensemble,” 2023 [Online]. Available: https://www.kaggle.com/code/nbroad/r100-ensemble/input. Accessed: Feb 15, 2024.en
dc.relation.referencesD. Kłeczek, “DAIGT V2 Train Dataset,” 2023 [Online]. Available: https://www.kaggle.com/datasets/thedrcat/daigt-v2- train-dataset. Accessed: Feb 15, 2024en
dc.relation.referencesR. Osmulski, “LLM Generated Essays for the Detect AI Comp!” 2023 [Online]. Available: https://www.kaggle.com/datasets/radek1/llm-generated-essays. Accessed: Feb 15, 2024.en
dc.relation.referencesD. Kłeczek, “DAIGT Proper Train Dataset,” 2023 [Online]. Available: https://www.kaggle.com/datasets/thedrcat/daigtproper-train-dataset. Accessed: Feb 2, 2024.en
dc.relation.referencesC. McBride Ellis, “LLM: 7 prompt training dataset,” 2023 [Online]. Available: https://www.kaggle.com/datasets /carlmcbrideellis/llm- 7-prompt-training-dataset . Accessed: Feb 15, 2024.en
dc.relation.referencesA. Paullier, “DAIGT | External Dataset,” 2023 [Online]. Available: https://www.kaggle.com/datasets/alejopaullier/daigtexternal-dataset. Accessed: Feb 15, 2024.en
dc.relation.referencesN. Broad, “Persuade corpus 2.0,” 2023 [Online]. Available: https://www.kaggle.com/datasets/nbroad/persaude-corpus-2/. Accessed: Feb 2, 2024.en
dc.relation.referencesD. Kłeczek, “Daigt-v3-train-dataset,” 2023 [Online]. Available: https://www.kaggle.com/datasets/thedrcat/daigt-v3- train-dataset. Accessed: Feb 15, 2024.en
dc.relation.referencesN. Broad, “Daigt data – llama 70b and falcon180b,” 2023 [Online]. Available: https://www.kaggle.com/datasets /nbroad/daigt-data-llama-70b-and-falcon180b . Accessed: Feb 15, 2024en
dc.relation.referencesC. McBride Ellis, “LLM: Mistral-7B Instruct texts,” 2023 [Online]. Available: https://www.kaggle.com/datasets /carlmcbrideellis /llm-mistral-7b-instruct-texts . Accessed: Feb 15, 2024.en
dc.relation.referencesD. Kłeczek, “DAIGT-V4-TRAIN-DATASET,” 2023 [Online]. Available: https://www.kaggle.com/datasets/thedrcat /daigt-v4-train-dataset. Accessed: Feb 15, 2024.en
dc.relation.referencesD. Kłeczek, “DAIGT External Train Dataset,” 2023 [Online]. Available: https://www.kaggle.com/datasets /thedrcat/daigt-external-train-dataset. Accessed: Feb 15, 2024.en
dc.relation.referencesY. Liu et al., “ArguGPT: evaluating, understanding and identifying argumentative essays generated by GPT models,” arXiv preprint, arXiv:2304.07666, 2023.en
dc.relation.referencesK. Hayawi, S. Shahriar, and S. Mathew, “The Imitation Game: Detecting Human and AI-Generated Texts in the Era of Large Language Models,” arXiv preprint, arXiv:2307.12166, 2023.en
dc.relation.referencesM. Rizqi, “LLM-generated essay using PaLM from Google Gen-AI,” 2023 [Online]. Available: https://www.kaggle.com/datasets/kingki19/llm-generated-essay-using-palm-from-google-gen-ai. Accessed: Feb 15, 2024.en
dc.relation.referencesD. Hanley, “Hello, Claude! 1000 essays from Anthropic…,” 2023 [Online]. Available: https://www.kaggle.com/datasets/darraghdog/hello-claude-1000-essays-from-anthropic. Accessed: Feb 15, 2024.en
dc.relation.referencesP. Srikanth, “[DAIGT] 3500 Essays from Intel Neural Chat 7b,” 2023 [Online]. Available: https://www.kaggle.com/datasets/phanisrikanth/daigt-essays-from-intel-neural-chat-7b. Accessed: Feb 15, 2024.en
dc.relation.referencesN. Matatov, “GPT4 Rephrased LLM DAIGT Dataset,” 2023 [Online]. Available: https://www.kaggle.com/datasets /snassimr/gpt4-rephrased-llm-daigt-dataset. Accessed: Feb 15, 2024.en
dc.relation.referencesR. Biswas, et al., “mock_test,” 2023 [Online]. Available: https://www.kaggle.com/datasets/conjuring92/mock-test. Accessed: Feb 15, 2024.en
dc.relation.referencesN. Broad, “Clean llama 70b data,” 2023 [Online]. Available: https://www.kaggle.com/code/nbroad/clean-llama-70bdata/notebook . Accessed: Feb 15, 2024en
dc.relation.referencesS. Crossley, et al., “A large-scale corpus for assessing written argumentation: PERSUADE 2.0,” Zenodo, Aug. 2023, https://doi.org/10.1016/j.asw.2023.100667 .en
dc.relation.references“Scikit-learn: Machine Learning in Python,” Sklearn.ensemble Module [Online]. Available: https://scikitlearn.org/stable/modules/classes.html#module-sklearn.ensemble . Accessed: Feb 15, 2024.en
dc.relation.referencesN. Broad, “Comprehensive 1st Place Write-Up,” 2023 [Online]. Available: https://www.kaggle.com/competitions/llmdetect-ai-generated-text/discussion/473295 . Accessed: Feb 15, 2024.en
dc.relation.referencesY. Maslov, “3rd place solution,” 2023 [Online]. Available: https://www.kaggle.com/competitions/llm-detect-aigenerated-text/discussion/470333. Accessed: Feb 15, 2024en
dc.relation.referencesE. Demir, “[4th Place Solution] A Summary of Combined Arms Approach,” 2023 [Online]. Available: https://www.kaggle.com/competitions/llm-detect-ai-generated-text/discussion/470179 . Accessed: Feb 15, 2024.en
dc.relation.referencesJ. Day, “5th place solution: 1.7 million training examples + domain adaptation,” 2023 [Online]. Available: https://www.kaggle.com/competitions/llm-detect-ai-generated-text/discussion/470093 . Accessed: Feb 15, 2024.en
dc.relation.referencesD. Cozzolino, “6nd place solution with code,” 2023 [Online]. Available: https://www.kaggle.com/competitions/llmdetect-ai-generated-text/discussion/471831 . Accessed: Feb 15, 2024.en
dc.relation.referencesH. Mei, “[7th Place Solution] Generate Data with Non-Instruction-Tuned Models,” 2023 [Online]. Available: https://www.kaggle.com/competitions/llm-detect-ai-generated-text/discussion/470643 . Accessed: Feb 15, 2024.en
dc.relation.referencesA. Meda, “[8th LB Solution] Linguistic Features: PPL & GLTR,” 2023 [Online]. Available: https://www.kaggle.com/competitions/llm-detect-ai-generated-text/discussion/470224 . Accessed: Feb 15, 2024.en
dc.relation.referencesD. Hanley, “[1st Public/9th Private] LLMLab - Solution Summary,” 2023 [Online]. Available: https://www.kaggle.com/competitions/llm-detect-ai-generated-text/discussion/470255. Accessed: Feb 15, 2024.en
dc.relation.referencesU. Erii, “12th place solution: DeBERTa + TF-IDF,” 2023 [Online]. Available: https://www.kaggle.com/competitions/llm-detect-ai-generated-text/discussion/470396 . Accessed: Feb 15, 2024/en
dc.relation.referencesR. Banthia, “13th place solution - Transformers only,” 2023 [Online]. Available: https://www.kaggle.com/competitions/llm-detect-ai-generated-text/discussion/470593 . Accessed: Feb 15, 2024.en
dc.relation.referencesVerma, Vivek, et al. “Ghostbuster: Detecting Text Ghostwritten by Large Language Models,” arXiv preprint, arXiv:2305.15047, 2023.en
dc.identifier.doihttps://doi.org/10.31649/1997-9266-2024-172-1-110-120


Файли в цьому документі

Thumbnail

Даний документ включений в наступну(і) колекцію(ї)

Показати скорочену інформацію