Алгоритм виявлення дублікатів вакансій на основі семантичної схожості
Автор
Шевчук, О. Ф.
Нечитайло, А. О.
Shevchuk, O.
Nechytailo, A.
Дата
2026Metadata
Показати повну інформаціюCollections
Анотації
The paper explores the problem of intelligent filtering and data deduplication of job vacancies collected from
unstructured sources. The algorithm for semantic analysis of job postings using high-dimensional numerical vectors is
considered. A solution based on the OpenAI cloud API for generating embeddings and the pgvector extension for
PostgreSQL DBMS is proposed, which allows detecting hidden duplicates of vacancies using the cosine similarity
metric. Experimental validation showed a reduction in information noise by almost twice. У роботі досліджено проблему інтелектуальної фільтрації та дедуплікації вакансій, зібраних із неструктурованих джерел. Розглянуто алгоритм семантичного аналізу текстів оголошень за допомогою багатовимірних числових векторів. Запропоновано рішення на основі хмарного API OpenAI для генерації векторних представлень та розширення pgvector для СУБД PostgreSQL, що дозволяє виявляти приховані копії вакансій за метрикою косинусної схожості. Експериментальна перевірка показала зниження рівня інформаційного шуму майже вдвічі.
URI:
https://ir.lib.vntu.edu.ua//handle/123456789/51922

