Метод синхронізації даних термінологічних баз знань

Яровий, А. А.; Кудрявцев, Д. С.; Yarovyi, A. A.; Kudriavtsev, D. S.

dc.contributor.author	Яровий, А. А.	uk
dc.contributor.author	Кудрявцев, Д. С.	uk
dc.contributor.author	Yarovyi, A. A.	en
dc.contributor.author	Kudriavtsev, D. S.	en
dc.date.accessioned	2025-06-24T10:58:29Z
dc.date.available	2025-06-24T10:58:29Z
dc.date.issued	2024
dc.identifier.citation	Яровий А. А., Кудрявцев Д. С. Метод синхронізації даних термінологічних баз знань // Матеріали XVII Міжнародної конференції «Контроль і управління в складних системах (КУСС-2024)», м. Вінниця, 16-17 жовтня 2024 р. Електрон. текст. дані. 2024. С. 99-103. URI: https://conferences.vntu.edu.ua/index.php/mccs/mccs2024/paper/view/22184.	uk
dc.identifier.uri	https://ir.lib.vntu.edu.ua//handle/123456789/46720
dc.description.abstract	Method for data synchronization in terminological knowledge bases is proposed, based on the use of a neural network and classification by subject area topics. Text data synchronization is one of the key tasks for efficient data processing, which involves systematizing knowledge based on its semantic component and addresses the problem of understanding context based on already known data. To solve this problem, a comprehensive approach is used, which includes a set of solutions and synchronization algorithms at all levels of data processing, including semantic analysis, software and hardware-level algorithms, and the use of optimized data models for specific tasks. During the research, an algorithm for optimal data distribution in terminological knowledge bases was developed based on the semantic value of terms. The main criteria for the distribution of textual data in terminological knowledge bases were identified. The task of updating data in terminological knowledge bases during their population was examined. The problem of conflicting term synchronization based on semantic affiliation to related subject areas was formulated and described. Algorithms for term comparison based on semantic analysis, cosine similarity, the Jaccard method, and the term frequency-inverse document frequency (TF-IDF) method were considered. A description of the synchronization method in accordance with the created models and data structures is provided. The advantages and disadvantages of known methods for text data synchronization using data processing algorithms and methods are described, with examples given of data storage and retrieval tasks. The effectiveness of the synchronization method is demonstrated using examples. Data structures were optimized for efficient storage and retrieval of text data for text classification tasks. A prototype of terminological knowledge bases was created, and the synchronization method was applied using the example of the call center subject area.	en
dc.description.abstract	Запропоновано метод синхронізації даних в термінологічних базах знань на основі використання нейронної мережі та класифікації за тематикою предметних областей. Синхронізація текстових даних є однією з ключових задач для ефективної обробки даних, що полягає у систематизації знань за семантичною складовою та вирішує проблему розуміння контексту на основі вже відомих даних. Для вирішення даної задачі використовують комплексний підхід, що включає в себе набір рішень та алгоритмів синхронізації на усіх рівнях обробки даних, включаючи семантичний аналіз, алгоритми програмного та апаратного рівнів, а також використання оптимізованих моделей даних для конкретних задач. В ході дослідження розроблено алгоритм пошуку оптимального розподілу даних в термінологічних базах знань на основі семантичної цінності термів. Визначено основні критерії розподілу текстових даних в термінологічних базах знань. Розглянуто задачу актуалізації даних в термінологічних базах знань при їх наповненні. Сформульовано та описано задачу конфліктної синхронізації термів на основі семантичної належності до споріднених предметних областей. Розглянуто алгоритми порівняння термів на основі семантичного аналізу, косинусної подібності, коефіцієнту Жаккара та методу частоти появи термів (TF-IDF). Подано опис методу синхронізації у відповідності до створених моделей та структур даних. Описано переваги та недоліки відомих методів синхронізації текстових даних із використанням алгоритмів та методів обробки даних на прикладі задач збереження та відтворення даних. Відзначено ефективність методу синхронізації в ході тестування та експериментальних досліджень для кол-центрів. Оптимізовано структури даних для ефективного збереження та отримання текстових даних для задачі класифікації тексту. Створено прототип термінологічних баз знань та застосовано метод синхронізації на прикладі різних предметних областей.	uk
dc.language.iso	uk_UA	uk_UA
dc.publisher	ВНТУ	uk
dc.relation.ispartof	Матеріали XVII Міжнародної конференції «Контроль і управління в складних системах (КУСС-2024)», м. Вінниця, 16-17 жовтня 2024 р. : 99-103.	uk
dc.relation.uri	https://conferences.vntu.edu.ua/index.php/mccs/mccs2024/paper/view/22184
dc.subject	термінологічна база знань	uk
dc.subject	синхронізація даних	uk
dc.subject	класифікація тексту	uk
dc.subject	нейронна мережа	uk
dc.subject	семантичний аналіз тексту	uk
dc.subject	terminological knowledge base	en
dc.subject	data synchronization	en
dc.subject	text classification	en
dc.subject	neural network	en
dc.subject	semantic text analysis	en
dc.title	Метод синхронізації даних термінологічних баз знань	uk
dc.title.alternative	Method of terminological knowledge bases data synchronization	en
dc.type	Thesis
dc.relation.references	[Kaya, Cem & Kilimci, Zeynep & Uysal, Mitat & Kaya, Murat. (2024). A Review of Metaheuristic Optimization Techniques in Text Classification. International Journal of Computational and Experimental Science and Engineering. 10. 10.22399/ijcesen.295.	en
dc.relation.references	Mohabir, S.E., Joshi, Y.C. A bibliometric analysis of the knowledge base on multinational corporations’ behavior. SN Bus Econ 4, 105 (2024). https://doi.org/10.1007/s43546-024-00705-7.	en
dc.relation.references	Ünver, Mehmet. (2023). Improved cosine similarity measures for q-Rung orthopair fuzzy sets. Qeios. 10.32388/EOGFR4.	en
dc.relation.references	TF–IDF. In: Sammut, C., Webb, G.I. (eds) Encyclopedia of Machine Learning. Springer, Boston, MA. https://doi.org/10.1007/978-0-387-30164-8_832	en
dc.relation.references	Travieso, Gonzalo & Benatti, Alexandre & da F. Costa, Luciano. (2024). An Analytical Approach to the Jaccard Similarity Index. 10.13140/RG.2.2.23119.70562	en
dc.relation.references	Berger, Bonnie & Waterman, Michael & Yu, Yun. (2020). Levenshtein Distance, Sequence Comparison and Biological Database Search. IEEE Transactions on Information Theory. PP. 1-1. 10.1109/TIT.2020.2996543.	en
dc.relation.references	A. Yarovyi and D. Kudriavtsev, "Multi-purpose search to determine the context of a text message based on the dictionary data structure," 2021 IEEE 16th International Conference on Computer Sciences and Information Technologies (CSIT), LVIV, Ukraine, 2021, pp. 65-68, doi: 10.1109/CSIT52700.2021.9648803.	en
dc.relation.references	Gabriel A. (2020, January). Kensho Derived Wikimedia Dataset. Retrieved September 1, 2024 from https://www.kaggle.com/datasets/kenshoresearch/kensho-derived-wikimedia-data.	en
dc.identifier.doi	https://doi.org/10.31649/mccs2024.5-19
dc.identifier.orcid	https://orcid.org/0000-0002-6668-2425
dc.identifier.orcid	https://orcid.org/0000-0001-7116-7869

Файли в цьому документі

Ім'я:: 179764.pdf
Розмір:: 459.8Kb
Формат:: PDF

Відкрити

Даний документ включений в наступну(і) колекцію(ї)

Наукові роботи каф. КН [924]
статті, матеріали конференцій
Контроль і управління в складних системах (КУСС-2024) [7]
ХVII Міжнародна конференція «Контроль і управління в складних системах (КУСС-2024)», 16-17 жовтня 2024 року

Показати скорочену інформацію