Показати скорочену інформацію

dc.contributor.authorЛитвин, М. О.uk
dc.contributor.authorОлещенко, Л. М.uk
dc.contributor.authorLytvyn, M. O.en
dc.contributor.authorOleshchenko, L. M.en
dc.date.accessioned2025-09-11T08:50:31Z
dc.date.available2025-09-11T08:50:31Z
dc.date.issued2025
dc.identifier.citationЛитвин М. О., Олещенко Л. М. Автоматизований підхід до датування англомовного тексту з використанням трансформерних нейронних мереж // Вісник Вінницького політехнічного інституту. 2025. № 3. С. 133–139.uk
dc.identifier.issn1997-9266
dc.identifier.urihttps://ir.lib.vntu.edu.ua//handle/123456789/49081
dc.description.abstractThe paper examines the existing methods of text dating using neural networks, highlighting their advantages and limitations. Text dating is a crucial task in fields such as history, archival studies, linguistics, and forensic science, as accurately determining the creation time of a document can help verify its authenticity, establish authorship, and detect forgeries. However, traditional methods based on stylometric or statistical approaches often lack accuracy, especially when dealing with large volumes of text data. This study proposes an approach for dating English-language texts using transformer neural networks. The model achieves an accuracy of 85 % within a 30-year range for texts written between the 15th and 20th centuries, outperforming existing models applied to English text. The core idea of the proposed automated approach is to utilize transfer learning to fine-tune a pre-trained transformer neural network, optimizing it for the classification of text fragments by decade. One key advantage of this approach is the use of transformer architecture, which, through the self-attention mechanism, effectively captures complex relationships within a text. Another significant benefit is the application of transfer learning, which reduces training time and computational resources compared to training a model from scratch. The approach was implemented in Python using the transformers libraries for training and testing the neural network, datasets for working with the dataset, and numpy for the calculations. Experimental results demonstrated high accuracy: 86 % within a 30-year range and 73 % within a 20-year range on the test dataset. For the 19th and 20th centuries, the model achieved an accuracy of 89% and 90%, respectively, while accuracy for earlier centuries was lower, averaging around 30%. The research also examines the possibility of identifying features that indicate a text's association with a specific period by extracting words with the highest attention scores. Future research will focus on improving the accuracy for underrepresented historical periods by expanding and refining the dataset. Further enhancements may be achieved by optimizing model hyperparameters and experimenting with alternative neural network architectures. Another direction for future research is to explore methods for identifying linguistic or stylistic features that mark texts as belonging to a certain historical period, in order to make the neural network's results more interpretable for the user. The proposed approach has potential applications in historical research, document authentication, plagiarism detection, literary studies, and forensic analysis.en
dc.description.abstractРозглянуто наявні методи датування тексту за допомогою нейронних мереж, їхні переваги та недоліки. Датування тексту є актуальною задачею в таких сферах, як історія, архівознавство, лінгвістика та криміналістика, оскільки точне визначення часу створення документа дозволяє підтвердити його достовірність, встановити авторство та виявити підробки. Проте традиційні методи, основані на стилометричних або статистичних підходах, мають обмежену точність, особливо для великих обсягів текстових даних. Авторами запропоновано автоматизований підхід до датування англомовного тексту з використанням трансформерних нейронних мереж, який дозволяє визначати приблизне десятиліття написання фрагмента тексту з точністю до 30 років на рівні 85 % у проміжку XV—XX ст. Це перевищує результати аналогічних методів, що працюють з англомовними текстами. Основна ідея запропонованого підходу полягає у використанні принципів передавального навчання для додатково адаптованої до конкретного завдання та попередньо навченої трансформерної нейронної мережі, оптимізованої для класифікації текстових фрагментів за десятиліттями. Однією з ключових переваг запропонованого підходу є застосування трансформерної архітектури, що завдяки механізму уваги враховує складні зв’язки між частинами тексту. Іншою важливою перевагою є використання передавального навчання, що значно зменшує затрати часу та обчислювальних ресурсів у порівнянні з безпосереднім навчанням моделі. Реалізація запропонованого підходу виконувалася мовою Python з використанням бібліотек “transformers” для навчання та тестування нейронної мережі, “datasets” для роботи з набором даних та “numpy” для обчислень. Результати експериментів продемонстрували високу точність підходу: 86 % з точністю до 30 років та 73 % з точністю до 20 років на тестовому наборі даних. Для XIX та XX століть точність досягала 89 % та 90 % відповідно, тоді як для попередніх століть точність була нижчою і становила близько 30 %. Також у дослідженні розглянуто можливість виділення ознак належності тексту певному періоду, через виділення слів з найбільшим показником уваги. Подальші дослідження спрямовані на підвищення точності для малопредставлених у навчальному наборі періодів шляхом розширення та вдосконалення корпусу даних. Додаткові поліпшення можливі через оптимізацію гіперпараметрів моделі та тестування інших архітектур нейронних мереж. Іншим напрямком подальших досліджень є пошук способів виділення лінгвістичних чи стилістичних ознак належності текстів певному періоду, задля можливості інтерпретації результатів роботи нейронної мережі користувачами. Запропонований підхід може бути використаний у таких сферах, як історичні дослідження, аналіз автентичності документів, виявлення плагіату, літературознавство та криміналістика.uk
dc.language.isouk_UAuk_UA
dc.publisherВНТУuk
dc.relation.ispartofВісник Вінницького політехнічного інституту. № 3 : 133-139.uk
dc.relation.urihttps://visnyk.vntu.edu.ua/index.php/visnyk/article/view/3270
dc.subjectпрограмна обробка природного мовлення (NLP)uk
dc.subjectмашинне навчанняuk
dc.subjectтрансформерні нейронні мережі (TNN)uk
dc.subjectпередавальне навчанняuk
dc.subjectBERTen
dc.subjectдатування текстуuk
dc.subjectстилометріяuk
dc.subjectаналіз історичних текстівuk
dc.subjectsoftware natural language processing (NLP)en
dc.subjectmachine learningen
dc.subjecttransformer neural networks (TNN)en
dc.subjecttransfer learningen
dc.subjectBERTen
dc.subjecttext datingen
dc.subjectstylometryen
dc.subjecthistorical text analysisen
dc.titleАвтоматизований підхід до датування англомовного тексту з використанням трансформерних нейронних мережuk
dc.title.alternativeAutomated Approach for Dating English Text Using Transformer Neural Networksen
dc.typeArticle, professional native edition
dc.typeArticle
dc.identifier.udc004.4
dc.relation.referencesY. Assael, T. Sommerschield, et al, “Restoring and attributing ancient texts using deep neural networks,” Nature603, pp. 280-283, 2022. https://doi.org/10.1038/s41586-022-04448-zen
dc.relation.referencesShikhar Vashishth, Shib Sankar Dasgupta, Swayambhu Nath Ray, and Partha Talukdar. “Dating Documents using Graph Convolution Networks,” in Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, vol. 1 (Long Papers), pp.1605-1615, Melbourne, Australia. Association for Computational Linguistics. 2018. https://doi.org/10.18653/v1/P18-1149en
dc.relation.referencesWahlberg, Fredrik & Wilkinson, Tomas & Brun, Anders, Historical Manuscript Production Date Estimation Using Deep Convolutional Neural Networks, 2016. https://doi.org/10.1109/ICFHR.2016.0048 .en
dc.relation.referencesO. Hellwig, “Dating Sanskrit texts using linguistic features and neural networks,” 2019. [Електронний ресурс]. Режим доступу: https://www.academia.edu/53885816/Dating_Sanskrit_texts_using_linguistic_features_and_neural_networks.3073703en
dc.relation.referencesAshish Vaswani, et al., “Attention is all you need,” in Proceedings of the 31st International Conference on Neural Information Processing Systems (NIPS'17), pp. 6000-6010, 2017.[Electronic resource]. Available: https://dl.acm.org/doi/10.5555/3295222.3295349en
dc.relation.referencesJacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova, “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,” 2018. https://doi.org/10.48550/arXiv.1810.04805en
dc.relation.referencesProject Gutenberg — English Language eBooks. [Electronic resource]. Available: https://huggingface.co/datasets/sedthh/gutenberg_englishen
dc.identifier.doihttps://doi.org/10.31649/1997-9266-2025-180-3-133-139


Файли в цьому документі

Thumbnail

Даний документ включений в наступну(і) колекцію(ї)

Показати скорочену інформацію