• English
    • українська
  • English 
    • English
    • українська
  • Login
View Item 
  • Frontpage
  • Періодичні видання ВНТУ
  • Наукові праці Вінницького національного технічного університету
  • Наукові праці ВНТУ. 2024. № 1
  • View Item
  • Frontpage
  • Періодичні видання ВНТУ
  • Наукові праці Вінницького національного технічного університету
  • Наукові праці ВНТУ. 2024. № 1
  • View Item
Сайт інституційного репозитарію ВНТУ містить роботи, матеріали та файли, які були розміщені докторантами, аспірантами та студентами Вінницького Національного Технічного Університету. Для розширення функцій сайту рекомендується увімкнути JavaScript.

Застосування архітектури трансформер до задачі super-resolution

Author
Козлов, С. Л.
Колесницький, О. К.
Date
2024
Metadata
Show full item record
Collections
  • Наукові праці ВНТУ. 2024. № 1 [10]
Abstract
Протягом останніх 15-ти років згорткові нейронні мережі є основним підходом для вирішення задач комп'ютерного зору, і демонструють високий рівень продуктивності. Проте, архітектура трансформер, яка показала високі досягнення в галузі обробки природної мови, знаходить все ширше застосування до задач комп'ютерного зору і демонструє співставні або кращі результати. Нами розглянуто застосування архітектури трансформер до задачі super-resolution, а також наведено короткий огляд попередніх підходів. Безпосереднє застосування оригінальної архітектури трансформер дозволило забезпечити продуктивність, співставну з актуальними згортковими нейронними мережами. Проте, ефективне застосування архітектури трансформер до задач комп'ютерного зору пов'язане з викликами, які витікають з відмінностей між візуальним і мовленнєвим доменами. Перша відмінність - масштаб, оскільки зображення містять візуальні елементи різних масштабів, це ускладнює їх обробку за допомогою архітектури трансформер, що аналогічно до обробки токенів в ОПМ, працює з фрагментами одного розміру. Друга – об’єм інформації, адже обчислювальна складність обрахунку самоуваги квадратична довжині вхідної послідовності, що стає особливо критичним при обробці зображень високої роздільної здатності. У статті проведено аналіз 12 робіт з цієї тематики, опублікованих починаючи з 2021 року, які пропонують підходи до усунення зазначених складнощів. В проаналізованих роботах можуть бути виділені наступні напрямки: дослідження застосування локальної уваги з вікнами різних форм, зокрема вікнами розрідженої уваги; дослідження канальної самоуваги та її поєднання з просторовою; дослідження можливості розширення архітектури трансформер за допомогою згорткових блоків. Означені дослідження дозволили суттєво збільшити якість відтворених зображень, проте не є вичерпними.
URI:
https://ir.lib.vntu.edu.ua//handle/123456789/42849
View/Open
Застосування архітектури трансформер до задачі super-resolution.pdf (1.096Mb)

Institutional Repository

FrontpageSearchHelpContact UsAbout Us

University Resources

JetIQLibrary websiteUniversity websiteE-catalog of VNTU

Browse

All of DSpaceCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsTypePublisherLanguageUdcISSNPublicationDOIThis CollectionBy Issue DateAuthorsTitlesSubjectsTypePublisherLanguageUdcISSNPublicationDOI

My Account

LoginRegister

Statistics

View Usage Statistics

ISSN 2413-6360 | Frontpage | Send Feedback | Help | Contact Us | About Us
© 2016 Vinnytsia National Technical University | Extra plugins code by VNTU Linuxoids | Powered by DSpace
Працює за підтримки 
НТБ ВНТУ