| dc.contributor.author | Литвин, М. О. | uk |
| dc.contributor.author | Олещенко, Л. М. | uk |
| dc.contributor.author | Lytvyn, M. O. | en |
| dc.contributor.author | Oleshchenko, L. M. | en |
| dc.date.accessioned | 2025-09-11T08:50:31Z | |
| dc.date.available | 2025-09-11T08:50:31Z | |
| dc.date.issued | 2025 | |
| dc.identifier.citation | Литвин М. О., Олещенко Л. М. Автоматизований підхід до датування англомовного тексту з використанням трансформерних нейронних мереж // Вісник Вінницького політехнічного інституту. 2025. № 3. С. 133–139. | uk |
| dc.identifier.issn | 1997-9266 | |
| dc.identifier.uri | https://ir.lib.vntu.edu.ua//handle/123456789/49081 | |
| dc.description.abstract | The paper examines the existing methods of text dating using neural networks, highlighting their advantages and limitations. Text dating is a crucial task in fields such as history, archival studies, linguistics, and forensic science, as accurately determining the creation time of a document can help verify its authenticity, establish authorship, and detect forgeries. However, traditional methods based on stylometric or statistical approaches often lack accuracy, especially when dealing with large volumes of text data. This study proposes an approach for dating English-language texts using transformer neural networks. The model achieves an accuracy of 85 % within a 30-year range for texts written between the 15th and 20th centuries, outperforming existing models applied to English text. The core idea of the proposed automated approach is to utilize transfer learning to fine-tune a pre-trained transformer neural network, optimizing it for the classification of text fragments by decade. One key advantage of this approach is the use of transformer architecture, which, through the self-attention mechanism, effectively captures complex relationships within a text. Another significant benefit is the application of transfer learning, which reduces training time and computational resources compared to training a model from scratch. The approach was implemented in Python using the transformers libraries for training and testing the neural network, datasets for working with the dataset, and numpy for the calculations. Experimental results demonstrated high accuracy: 86 % within a 30-year range and 73 % within a 20-year range on the test dataset. For the 19th and 20th centuries, the model achieved an accuracy of 89% and 90%, respectively, while accuracy for earlier centuries was lower, averaging around 30%. The research also examines the possibility of identifying features that indicate a text's association with a specific period by extracting words with the highest attention scores. Future research will focus on improving the accuracy for underrepresented historical periods by expanding and refining the dataset. Further enhancements may be achieved by optimizing model hyperparameters and experimenting with alternative neural network architectures. Another direction for future research is to explore methods for identifying linguistic or stylistic features that mark texts as belonging to a certain historical period, in order to make the neural network's results more interpretable for the user. The proposed approach has potential applications in historical research, document authentication, plagiarism detection, literary studies, and forensic analysis. | en |
| dc.description.abstract | Розглянуто наявні методи датування тексту за допомогою нейронних мереж, їхні переваги та недоліки. Датування тексту є актуальною задачею в таких сферах, як історія, архівознавство, лінгвістика та криміналістика, оскільки точне визначення часу створення документа дозволяє підтвердити його достовірність, встановити авторство та виявити підробки. Проте традиційні методи, основані на стилометричних або статистичних підходах, мають обмежену точність, особливо для великих обсягів текстових даних. Авторами запропоновано автоматизований підхід до датування англомовного тексту з використанням трансформерних нейронних мереж, який дозволяє визначати приблизне десятиліття написання фрагмента тексту з точністю до 30 років на рівні 85 % у проміжку XV—XX ст. Це перевищує результати аналогічних методів, що працюють з англомовними текстами. Основна ідея запропонованого підходу полягає у використанні принципів передавального навчання для додатково адаптованої до конкретного завдання та попередньо навченої трансформерної нейронної мережі, оптимізованої для класифікації текстових фрагментів за десятиліттями. Однією з ключових переваг запропонованого підходу є застосування трансформерної архітектури, що завдяки механізму уваги враховує складні зв’язки між частинами тексту. Іншою важливою перевагою є використання передавального навчання, що значно зменшує затрати часу та обчислювальних ресурсів у порівнянні з безпосереднім навчанням моделі. Реалізація запропонованого підходу виконувалася мовою Python з використанням бібліотек “transformers” для навчання та тестування нейронної мережі, “datasets” для роботи з набором даних та “numpy” для обчислень. Результати експериментів продемонстрували високу точність підходу: 86 % з точністю до 30 років та 73 % з точністю до 20 років на тестовому наборі даних. Для XIX та XX століть точність досягала 89 % та 90 % відповідно, тоді як для попередніх століть точність була нижчою і становила близько 30 %. Також у дослідженні розглянуто можливість виділення ознак належності тексту певному періоду, через виділення слів з найбільшим показником уваги. Подальші дослідження спрямовані на підвищення точності для малопредставлених у навчальному наборі періодів шляхом розширення та вдосконалення корпусу даних. Додаткові поліпшення можливі через оптимізацію гіперпараметрів моделі та тестування інших архітектур нейронних мереж. Іншим напрямком подальших досліджень є пошук способів виділення лінгвістичних чи стилістичних ознак належності текстів певному періоду, задля можливості інтерпретації результатів роботи нейронної мережі користувачами. Запропонований підхід може бути використаний у таких сферах, як історичні дослідження, аналіз автентичності документів, виявлення плагіату, літературознавство та криміналістика. | uk |
| dc.language.iso | uk_UA | uk_UA |
| dc.publisher | ВНТУ | uk |
| dc.relation.ispartof | Вісник Вінницького політехнічного інституту. № 3 : 133-139. | uk |
| dc.relation.uri | https://visnyk.vntu.edu.ua/index.php/visnyk/article/view/3270 | |
| dc.subject | програмна обробка природного мовлення (NLP) | uk |
| dc.subject | машинне навчання | uk |
| dc.subject | трансформерні нейронні мережі (TNN) | uk |
| dc.subject | передавальне навчання | uk |
| dc.subject | BERT | en |
| dc.subject | датування тексту | uk |
| dc.subject | стилометрія | uk |
| dc.subject | аналіз історичних текстів | uk |
| dc.subject | software natural language processing (NLP) | en |
| dc.subject | machine learning | en |
| dc.subject | transformer neural networks (TNN) | en |
| dc.subject | transfer learning | en |
| dc.subject | BERT | en |
| dc.subject | text dating | en |
| dc.subject | stylometry | en |
| dc.subject | historical text analysis | en |
| dc.title | Автоматизований підхід до датування англомовного тексту з використанням трансформерних нейронних мереж | uk |
| dc.title.alternative | Automated Approach for Dating English Text Using Transformer Neural Networks | en |
| dc.type | Article, professional native edition | |
| dc.type | Article | |
| dc.identifier.udc | 004.4 | |
| dc.relation.references | Y. Assael, T. Sommerschield, et al, “Restoring and attributing ancient texts using deep neural networks,” Nature603, pp. 280-283, 2022. https://doi.org/10.1038/s41586-022-04448-z | en |
| dc.relation.references | Shikhar Vashishth, Shib Sankar Dasgupta, Swayambhu Nath Ray, and Partha Talukdar. “Dating Documents using Graph Convolution Networks,” in Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, vol. 1 (Long Papers), pp.1605-1615, Melbourne, Australia. Association for Computational Linguistics. 2018. https://doi.org/10.18653/v1/P18-1149 | en |
| dc.relation.references | Wahlberg, Fredrik & Wilkinson, Tomas & Brun, Anders, Historical Manuscript Production Date Estimation Using Deep Convolutional Neural Networks, 2016. https://doi.org/10.1109/ICFHR.2016.0048 . | en |
| dc.relation.references | O. Hellwig, “Dating Sanskrit texts using linguistic features and neural networks,” 2019. [Електронний ресурс]. Режим доступу: https://www.academia.edu/53885816/Dating_Sanskrit_texts_using_linguistic_features_and_neural_networks.3073703 | en |
| dc.relation.references | Ashish Vaswani, et al., “Attention is all you need,” in Proceedings of the 31st International Conference on Neural Information Processing Systems (NIPS'17), pp. 6000-6010, 2017.[Electronic resource]. Available: https://dl.acm.org/doi/10.5555/3295222.3295349 | en |
| dc.relation.references | Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova, “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,” 2018. https://doi.org/10.48550/arXiv.1810.04805 | en |
| dc.relation.references | Project Gutenberg — English Language eBooks. [Electronic resource]. Available: https://huggingface.co/datasets/sedthh/gutenberg_english | en |
| dc.identifier.doi | https://doi.org/10.31649/1997-9266-2025-180-3-133-139 | |