Transformers in image super-resolution: a brief review
Автор
Kozlov, S.
Kolesnytskyi, O.
Korolenko, O.
Zhukov, A.
Bondarenko, D.
Smetaniuk, O.
Kalizhanova, A.
Komada, P.
Козлов, С. Л.
Колесницький, О. К.
Короленко, О. О.
Жуков, О. А.
Бондаренко, Д.
Сметанюк, О. А.
Дата
2024Metadata
Показати повну інформаціюCollections
Анотації
З моменту появи глибокого навчання понад десять років тому, згорткові нейронні мережі стали домінуючим підходом до виконання завдань комп`ютерного зору. Однак модель Transformer, яка досягла значних успіхів у сфері обробки природної мови, все частіше застосовується до задач комп`ютерного зору, демонструючи співставну або навіть кращу ефективність. У статті розглянуто застосування моделі Transformer до задачі суперрезолюції. Пряме використання оригінальної моделі Transformer досягає результатів, які можна порівняти з сучасними згортковими нейронними мережами. Проте механізм самоуваги, що є основою моделі Transformer, має квадратичну обчислювальну складність щодо розміру вхідного зображення, що створює суттєві проблеми при обробці зображень високої роздільної здатності. Подальші дослідження значно покращили продуктивність, але ці покращення ще не є вичерпними. У статті наведено огляд та порівняльний аналіз цих досліджень.
URI:
https://ir.lib.vntu.edu.ua//handle/123456789/43867