Метод синхронізації даних термінологічних баз знань
Автор
Яровий, А. А.
Кудрявцев, Д. С.
Yarovyi, A. A.
Kudriavtsev, D. S.
Дата
2024Metadata
Показати повну інформаціюCollections
- JetIQ [463]
Анотації
Method for data synchronization in terminological knowledge bases is proposed, based on the use of a neural network and
classification by subject area topics. Text data synchronization is one of the key tasks for efficient data processing, which
involves systematizing knowledge based on its semantic component and addresses the problem of understanding context
based on already known data. To solve this problem, a comprehensive approach is used, which includes a set of solutions
and synchronization algorithms at all levels of data processing, including semantic analysis, software and hardware-level
algorithms, and the use of optimized data models for specific tasks. During the research, an algorithm for optimal data
distribution in terminological knowledge bases was developed based on the semantic value of terms. The main criteria for the
distribution of textual data in terminological knowledge bases were identified. The task of updating data in terminological
knowledge bases during their population was examined. The problem of conflicting term synchronization based on semantic
affiliation to related subject areas was formulated and described. Algorithms for term comparison based on semantic analysis,
cosine similarity, the Jaccard method, and the term frequency-inverse document frequency (TF-IDF) method were
considered. A description of the synchronization method in accordance with the created models and data structures is
provided. The advantages and disadvantages of known methods for text data synchronization using data processing
algorithms and methods are described, with examples given of data storage and retrieval tasks. The effectiveness of the
synchronization method is demonstrated using examples. Data structures were optimized for efficient storage and retrieval of
text data for text classification tasks. A prototype of terminological knowledge bases was created, and the synchronization
method was applied using the example of the call center subject area. Запропоновано метод синхронізації даних в термінологічних базах знань на основі використання нейронної мережі та класифікації за тематикою предметних областей. Синхронізація текстових даних є однією з ключових задач для ефективної обробки даних, що полягає у систематизації знань за семантичною складовою та вирішує проблему розуміння контексту на основі вже відомих даних. Для вирішення даної задачі використовують комплексний підхід, що включає в себе набір рішень та алгоритмів синхронізації на усіх рівнях обробки даних, включаючи семантичний аналіз, алгоритми програмного та апаратного рівнів, а також використання оптимізованих моделей даних для конкретних задач. В ході дослідження розроблено алгоритм пошуку оптимального розподілу даних в термінологічних базах знань на основі семантичної цінності термів. Визначено основні критерії розподілу текстових даних в термінологічних базах знань. Розглянуто задачу актуалізації даних в термінологічних базах знань при їх наповненні. Сформульовано та описано задачу конфліктної синхронізації термів на основі семантичної належності до споріднених предметних областей. Розглянуто алгоритми порівняння термів на основі семантичного аналізу, косинусної подібності, коефіцієнту Жаккара та методу частоти появи термів (TF-IDF). Подано опис методу синхронізації у відповідності до створених моделей та структур даних. Описано переваги та недоліки відомих методів синхронізації текстових даних із використанням алгоритмів та методів обробки даних на прикладі задач збереження та відтворення даних. Відзначено ефективність методу синхронізації в ході тестування та експериментальних досліджень для кол-центрів. Оптимізовано структури даних для ефективного збереження та отримання текстових даних для задачі класифікації тексту. Створено прототип термінологічних баз знань та застосовано метод синхронізації на прикладі різних предметних областей.
URI:
https://ir.lib.vntu.edu.ua//handle/123456789/46720