Алгоритм виявлення дублікатів вакансій на основі семантичної схожості

Шевчук, О. Ф.; Нечитайло, А. О.; Shevchuk, O.; Nechytailo, A.

Автор

Шевчук, О. Ф.

Нечитайло, А. О.

Shevchuk, O.

Nechytailo, A.

Дата

2026

Metadata

Показати повну інформацію

Collections

Анотації

The paper explores the problem of intelligent filtering and data deduplication of job vacancies collected from unstructured sources. The algorithm for semantic analysis of job postings using high-dimensional numerical vectors is considered. A solution based on the OpenAI cloud API for generating embeddings and the pgvector extension for PostgreSQL DBMS is proposed, which allows detecting hidden duplicates of vacancies using the cosine similarity metric. Experimental validation showed a reduction in information noise by almost twice.

У роботі досліджено проблему інтелектуальної фільтрації та дедуплікації вакансій, зібраних із неструктурованих джерел. Розглянуто алгоритм семантичного аналізу текстів оголошень за допомогою багатовимірних числових векторів. Запропоновано рішення на основі хмарного API OpenAI для генерації векторних представлень та розширення pgvector для СУБД PostgreSQL, що дозволяє виявляти приховані копії вакансій за метрикою косинусної схожості. Експериментальна перевірка показала зниження рівня інформаційного шуму майже вдвічі.

URI:

https://ir.lib.vntu.edu.ua//handle/123456789/51922

Відкрити

204177.pdf (613.3Kb)