Підвищення точності локалізації в навчанні зі слабким контролем за допомогою базових моделей і уточнення псевдоміток з урахуванням невизначеності

Зелений, В. Є.; Козловський, А. В.; Kozlovskyi, A. V.; Zelenyi, V. Y.

Автор

Зелений, В. Є.

Козловський, А. В.

Kozlovskyi, A. V.

Zelenyi, V. Y.

Дата

2025

Metadata

Показати повну інформацію

Collections

НТКП ВНТУ. Факультет інтелектуальних інформаційних технологій та автоматизації (2025) [171]

Анотації

У цьому дослідженні запропоновано нову модельну структуру для вирішення проблеми низької точності локалізації в задачах розпізнавання та сегментації об'єктів із використанням слабоконтрольованого навчання. Незважаючи на останні досягнення в цій галузі, існуючі методи WSL часто демонструють обмежену здатність до точного визначення меж об'єктів через залежність від неоднозначних і зашумлених сигналів [1]. Запропонований підхід поєднує базову модель комп’ютерного зору Segment Anything Model (SAM) з механізмом уточнення псевдо-міток на основі оцінки невизначеності для підвищення якості слабкого нагляду. Зокрема, SAM використовується для генерування початкових масок сегментації на основі мінімальних анотацій на рівні зображень, що надає надійне апріорне припущення щодо розташування об'єктів. Додатково впроваджено механізм оцінки невизначеності для фільтрації прогнозів із низькою впевненістю, що забезпечує навчання моделі на основі лише достовірних псевдо-міток [2]. Результати експериментів на стандартних еталонних наборах даних демонструють, що запропонований метод суттєво підвищує точність локалізації порівняно з сучасними підходами WSL, одночасно зменшуючи витрати на анотацію. Представлена робота підкреслює потенціал інтеграції базових моделей із підходами, орієнтованими на врахування невизначеності, для подолання розриву між слабоконтрольованими та повністю контрольованими методами локалізації об’єктів.

This paper considers a novel framework to address the persistent challenge of low localization precision in weakly supervised learning for object detection and segmentation tasks. Despite recent advancements, existing WSL methods often struggle to accurately delineate object boundaries due to reliance on ambiguous and noisy supervisory signals [1]. The approach presented in this study integrates a vision foundation model – the Segment Anything Model (SAM) – with uncertainty-guided pseudo-label refinement to enhance the quality of weak supervision. Specifically, SAM is employed to generate initial segmentation masks from minimal image-level annotations, providing a strong prior on object locations. To further mitigate the impact of noisy predictions, an uncertainty estimation mechanism filters out lowconfidence pseudo-labels, ensuring that only reliable supervision guides model training [2]. Experimental results on standard benchmark datasets demonstrate that the proposed method significantly improves localization accuracy compared to state-of-the-art WSL approaches, while simultaneously reducing annotation costs. This work highlights the potential of combining foundation models with uncertainty-aware learning strategies to bridge the performance gap between weakly and fully supervised object localization.

URI:

https://ir.lib.vntu.edu.ua//handle/123456789/49303

Відкрити

24113.pdf (302.1Kb)