Системний аналіз стану природних середовищ з урахуванням аномалій

Шмундяк, Д. О.; Мокін, В. Б.; Shmundiak, D.; Mokin, V. B.

Автор

Шмундяк, Д. О.

Мокін, В. Б.

Shmundiak, D.

Mokin, V. B.

Дата

2024

Metadata

Показати повну інформацію

Collections

Анотації

The article presents a neural network approach for determining the temporal orientation in texts, which allows reconstructing the chronology of events even in the absence of explicit time markers. This approach determines the probabilistic order of words in texts, taking into account their statistical and linguistic relationships. In contrast to traditional approaches that rely on explicit temporal expressions or publication dates, the proposed approach allows to estimate the order of events based on the identified relationships between pairs of words in documents, describing events. To analyze the temporal orientation, neural networks are used to model the relationships between words by comparing their occurrence in texts in pairs. Formulas have been developed to calculate temporal orientation indicators based on the frequency of occurrence of words in dated texts. The obtained indicators are normalized, this provides a better interpretation of the results. Based on these indicators, a set of features was formed to train machine learning models according to various criteria. To test the effectiveness, we created a Ukrainian-language corpus of 127,000 social media news and applied several models: Gradient Boosting Classifier, Random Forest Classifier, Decision Tree, and Logistic Regression. As an example, 48 features that characterize the news, were selected. The experiments revealed that the Gradient Boosting Classifier model showed the best result with an accuracy of 89.76 % on the validation dataset, which exceeded the accuracy of other models such as Random Forest (74.81%) and Decision Tree (68.97 %). The proposed approach proved to be effective in modeling the chronological relationships between events, which is important for text automation tasks. The approach can be used to analyze news, chronologically organize historical events, and work with text data in large arrays.

Запропоновано нейромережевий підхід до визначення темпоральної спрямованості у текстах, що дозволяє відтворювати хронологію подій, навіть за відсутності явних часових маркерів. Цей підхід визначає ймовірнісний порядок появи слів у текстах з урахуванням їхніх статистичних та лінгвістичних зв’язків. На відміну від традиційних підходів, які покладаються на явні часові вирази або дати публікацій, запропонований підхід дає змогу оцінювати порядок подій на основі виявлених взаємозв’язків між парами слів в документах, що описують події. Для аналізу темпоральної спрямованості використовуються нейронні мережі, що дозволяють моделювати відносини між словами шляхом попарного порівняння їхньої появи в текстах. Запропоновано формули для обчислення показників темпоральної спрямованості, які базуються на частоті появи слів у датованих текстах. Отримані показники нормалізовані, що забезпечує кращу інтерпретацію результатів. На основі цих показників сформовано набір ознак для тренування моделей машинного навчання за різними критеріями. Для перевірки ефективності створено україномовний корпус із 127 000 новин соціальних мереж та застосовано кілька моделей: Gradient Boosting Classifier, Random Forest Classifier, Decision Tree та Logistic Regression. Як приклад, вибрано 48 ознак, які характеризують ці новини. У ході експериментів виявлено, що модель Gradient Boosting Classifier показала найкращий результат з точністю 89,76 % на валідаційному датасеті, що перевищило точність інших моделей, таких як Random Forest (74,81 %) та Decision Tree (68,97 %). Запропонований підхід підтвердив ефективність у моделюванні хронологічних зв’язків між подіями, що є важливим для задач автоматизації текстів. Підхід можна використовувати для аналізу новин, хронологічного впорядкування історичних подій і роботи з текстовими даними у великих масивах.

URI:

https://ir.lib.vntu.edu.ua//handle/123456789/49885

Відкрити

187427.pdf (891.7Kb)