Transformers in image super-resolution: a brief review
Author
Kozlov, S.
Kolesnytskyi, O.
Korolenko, O.
Zhukov, A.
Bondarenko, D.
Smetaniuk, O.
Kalizhanova, A.
Komada, P.
Козлов, С. Л.
Колесницький, О. К.
Короленко, О. О.
Жуков, О. А.
Бондаренко, Д.
Сметанюк, О. А.
Date
2024Metadata
Show full item recordCollections
Abstract
З моменту появи глибокого навчання понад десять років тому, згорткові нейронні мережі стали домінуючим підходом до виконання завдань комп`ютерного зору. Однак модель Transformer, яка досягла значних успіхів у сфері обробки природної мови, все частіше застосовується до задач комп`ютерного зору, демонструючи співставну або навіть кращу ефективність. У статті розглянуто застосування моделі Transformer до задачі суперрезолюції. Пряме використання оригінальної моделі Transformer досягає результатів, які можна порівняти з сучасними згортковими нейронними мережами. Проте механізм самоуваги, що є основою моделі Transformer, має квадратичну обчислювальну складність щодо розміру вхідного зображення, що створює суттєві проблеми при обробці зображень високої роздільної здатності. Подальші дослідження значно покращили продуктивність, але ці покращення ще не є вичерпними. У статті наведено огляд та порівняльний аналіз цих досліджень.
URI:
https://ir.lib.vntu.edu.ua//handle/123456789/43867