Вплив комбінованих векторних представлень на точність пошуку нечітких дублікатів

Козинець, Н. В.; Заболотня, Т. М.

dc.contributor.author	Козинець, Н. В.	uk
dc.contributor.author	Заболотня, Т. М.	uk
dc.date.accessioned	2026-01-19T19:46:39Z
dc.date.available	2026-01-19T19:46:39Z
dc.date.issued	2025
dc.identifier.citation	Козинець Н. В., Заболотня Т. М. Вплив комбінованих векторних представлень на точність пошуку нечітких дублікатів // Наукові праці ВНТУ. Електрон. текст. дані. 2025. № 1. URI: https://praci.vntu.edu.ua/index.php/praci/article/view/777.	uk
dc.identifier.issn	2307-5376
dc.identifier.uri	https://ir.lib.vntu.edu.ua//handle/123456789/50496
dc.description.abstract	У статті запропоновано новий підхід до виявлення нечітких у текстових даних, що базується на інтеграції класичних та сучасних методів векторизації. Зокрема, традиційне TF-IDF-векторизування поєднано з контекстуальними ембедингами (BERT), які враховують не лише окремі слова, а й їхній контекст у межах усього документа. Це дозволяє отримати багатовимірне представлення тексту, яке краще відображає його семантичне значення. Така комбінована методологія дає змогу підвищити точність пошуку схожих за змістом, але по-різному сформульованих текстів, що є важливим у таких сферах, як інформаційний пошук, аналіз дублікатів у базах даних та верифікація унікальності контенту. Окрему увагу приділено врахуванню синонімів та антонімів у процесі порівняння текстових фрагментів, що дає змогу не лише ідентифікувати прямі збіги, а й аналізувати схожість на глибшому семантичному рівні. Це, у свою чергу, сприяє зменшенню кількості хибних спрацьовувань, оскільки метод здатен краще розпізнавати контекстуальні відмінності та схожості між словами, що особливо актуально для текстів, написаних природною мовою. Водночас такий підхід підвищує ефективність виявлення прихованих дублікатів, які могли б залишитися непоміченими при використанні традиційних методів аналізу, орієнтованих лише на лексичну подібність. Експериментальні результати підтвердили переваги запропонованого рішення порівняно з базовим методом косинусної схожості, оскільки воно забезпечує більшу точність та повноту, що є критично важливим для задач автоматичної обробки текстових даних. У підсумку окреслено подальші напрями досліджень, зокрема можливості оптимізації обчислювальної складності запропонованого методу, його адаптацію до специфічних предметних областей, а також дослідження впливу додаткових семантичних ознак на якість виявлення нечітких дублікатів.	uk
dc.language.iso	uk_UA	uk_UA
dc.publisher	ВНТУ	uk
dc.relation.ispartof	Наукові праці ВНТУ. № 1	uk
dc.relation.uri	https://praci.vntu.edu.ua/index.php/praci/article/view/777
dc.subject	нечіткі дублікати	uk
dc.subject	комбіновані векторні представлення	uk
dc.subject	TF-IDF	uk
dc.subject	BERT	uk
dc.subject	косинусна подібність	uk
dc.subject	семантичні ембединги	uk
dc.subject	синоніми і антоніми	uk
dc.subject	виявлення дублікатів	uk
dc.title	Вплив комбінованих векторних представлень на точність пошуку нечітких дублікатів	uk
dc.type	Article, professional native edition
dc.type	Article
dc.identifier.udc	004.91
dc.relation.references	MohammadiH., KhastehS. H. AFastTextSimilarityMeasureforLargeDocumentCollectionsusingMulti-referenceCosineandGeneticAlgorithm. 2018.URL: https://www.researchgate.net/publication/345390393_A_fast_text_similarity_measure_for_large_document_collections_using_multireferencecosine_and_genetic_algorithm(accessed March16,2025).	en
dc.relation.references	Distributed representations of tuples for entity resolution / M. Ebraheemet al.Proceedings of the VLDB Endowment. 2018. Vol.11, No11. P.1454–1467. URL: http://www.vldb.org/pvldb/vol11/p1454-ebraheem.pdf (accessed March16,2025).	en
dc.relation.references	Hadzic D., Sarajlic N. Methodology for fuzzy duplicate record identification based on the semantic-syntactic information of similarity.Journal of KingSaud University –Computer and Information Sciences. 2020. Vol.32, No1. P.126–136. URL: https://doaj.org/article/3756a356452446ac901a37d4d77380f7 (accessed March16,2025).	en
dc.relation.references	Lattar H., BenSalem A., BenGhezala H. H. Duplicate record detection approach based on sentence embeddings.Proc. of the 29thIEEE Int. Conf. on Enabling Technologies: Infrastructure for Collaborative Enterprises (WETICE2020). 2020. P.269–274.URL: https://www.researchgate.net/publication/348979121_Duplicate_record_detection_approach_based_on_sentence_embeddings(accessed March16,2025).	en
dc.relation.references	Prieur M., Gadek G., Grilheres B. Duplicate detection in a knowledge base with PIKA.Proc. of the 14 th International Conference on Agents and ArtificialIntelligence (ICAART2022). 2022.P.46–54.URL:https://www.scitepress.org/Papers/2022/107695/107695.pdf (accessed March16,2025).	en
dc.relation.references	Lee S., Lee S. Duplicate bug report detection by using sentence embedding and Faiss.CEUR Workshop Proceedings, (Proc. of the 2nd International Workshop on Intelligent Software Engineering, ISE2023).2023. Vol.365512.URL: https://ceur-ws.org/Vol-3655/ISE2023_07_Lee_Duplicate_Bug.pdf (accessedMarch16,2025).	en
dc.relation.references	Jatnika D., Bijaksana M. A., Suryani A. A. Word 2 Vec Model Analysis for Semantic Similaritiesin English Words.Procedia Computer.2019 .No 157. Р. 160–167. URL: https://www.researchgate.net/publication/336203802_Word2Vec_Model_Analysis_for_Semantic_Similarities_in_English_Words(accessedMarch16,2025).	en
dc.relation.references	PenningtonJ., Socher R., Manning C. D. GloVe: Global Vectors for Word Representation. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2014. Р. 1532–1543. URL: https://www.researchgate.net/publication/284576917_Glove_Global_Vectors_for_Word_Representation (accessed March 16, 2025).	en
dc.relation.references	BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding / J. Devlin et al. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2019. Volume 1 (Long and Short Papers). P.4171–4186. URL: https://aclanthology.org/N19-1423.pdf(accessed March 16, 2025).	en
dc.relation.references	Olabiyi W., Olaoye G.,Daniel O. Natural Language Processing with NLTK and Spacy.ResearchGate.Computer science and engineering. 2024. URL: https://www.researchgate.net/publication/385885283_Natural_language_processing_nlp_with_nltk_and_spacy (accessed March 16, 2025).	en
dc.identifier.doi	https://doi.org/10.31649/2307-5376-2025-1-46-55

Файли в цьому документі

Ім'я:: 192786.pdf
Розмір:: 781.4Kb
Формат:: PDF

Відкрити

Даний документ включений в наступну(і) колекцію(ї)

Наукові праці ВНТУ. 2025. № 1 [18]

Показати скорочену інформацію