Алгоритм виявлення дублікатів вакансій на основі семантичної схожості
Author
Шевчук, О. Ф.
Нечитайло, А. О.
Shevchuk, O.
Nechytailo, A.
Date
2026Metadata
Show full item recordCollections
Abstract
The paper explores the problem of intelligent filtering and data deduplication of job vacancies collected from
unstructured sources. The algorithm for semantic analysis of job postings using high-dimensional numerical vectors is
considered. A solution based on the OpenAI cloud API for generating embeddings and the pgvector extension for
PostgreSQL DBMS is proposed, which allows detecting hidden duplicates of vacancies using the cosine similarity
metric. Experimental validation showed a reduction in information noise by almost twice. У роботі досліджено проблему інтелектуальної фільтрації та дедуплікації вакансій, зібраних із неструктурованих джерел. Розглянуто алгоритм семантичного аналізу текстів оголошень за допомогою багатовимірних числових векторів. Запропоновано рішення на основі хмарного API OpenAI для генерації векторних представлень та розширення pgvector для СУБД PostgreSQL, що дозволяє виявляти приховані копії вакансій за метрикою косинусної схожості. Експериментальна перевірка показала зниження рівня інформаційного шуму майже вдвічі.
URI:
https://ir.lib.vntu.edu.ua//handle/123456789/51922

