Підвищення точності локалізації в навчанні зі слабким контролем за допомогою базових моделей і уточнення псевдоміток з урахуванням невизначеності
Автор
Зелений, В. Є.
Козловський, А. В.
Kozlovskyi, A. V.
Zelenyi, V. Y.
Дата
2025Metadata
Показати повну інформаціюАнотації
У цьому дослідженні запропоновано нову модельну структуру для вирішення проблеми низької точності
локалізації в задачах розпізнавання та сегментації об'єктів із використанням слабоконтрольованого навчання.
Незважаючи на останні досягнення в цій галузі, існуючі методи WSL часто демонструють обмежену здатність
до точного визначення меж об'єктів через залежність від неоднозначних і зашумлених сигналів [1].
Запропонований підхід поєднує базову модель комп’ютерного зору Segment Anything Model (SAM) з механізмом
уточнення псевдо-міток на основі оцінки невизначеності для підвищення якості слабкого нагляду. Зокрема, SAM
використовується для генерування початкових масок сегментації на основі мінімальних анотацій на рівні
зображень, що надає надійне апріорне припущення щодо розташування об'єктів. Додатково впроваджено
механізм оцінки невизначеності для фільтрації прогнозів із низькою впевненістю, що забезпечує навчання моделі
на основі лише достовірних псевдо-міток [2]. Результати експериментів на стандартних еталонних наборах
даних демонструють, що запропонований метод суттєво підвищує точність локалізації порівняно з сучасними
підходами WSL, одночасно зменшуючи витрати на анотацію. Представлена робота підкреслює потенціал
інтеграції базових моделей із підходами, орієнтованими на врахування невизначеності, для подолання розриву
між слабоконтрольованими та повністю контрольованими методами локалізації об’єктів. This paper considers a novel framework to address the persistent challenge of low localization precision in
weakly supervised learning for object detection and segmentation tasks. Despite recent advancements, existing WSL
methods often struggle to accurately delineate object boundaries due to reliance on ambiguous and noisy supervisory
signals [1]. The approach presented in this study integrates a vision foundation model – the Segment Anything Model
(SAM) – with uncertainty-guided pseudo-label refinement to enhance the quality of weak supervision. Specifically, SAM
is employed to generate initial segmentation masks from minimal image-level annotations, providing a strong prior on
object locations. To further mitigate the impact of noisy predictions, an uncertainty estimation mechanism filters out lowconfidence pseudo-labels, ensuring that only reliable supervision guides model training [2]. Experimental results on
standard benchmark datasets demonstrate that the proposed method significantly improves localization accuracy
compared to state-of-the-art WSL approaches, while simultaneously reducing annotation costs. This work highlights the
potential of combining foundation models with uncertainty-aware learning strategies to bridge the performance gap
between weakly and fully supervised object localization.
URI:
https://ir.lib.vntu.edu.ua//handle/123456789/49303

