• English
    • українська
  • українська 
    • English
    • українська
  • Увійти
Дивитися документ 
  • Головна
  • Періодичні видання ВНТУ
  • Наукові праці Вінницького національного технічного університету
  • Наукові праці ВНТУ. 2024. № 1
  • Дивитися документ
  • Головна
  • Періодичні видання ВНТУ
  • Наукові праці Вінницького національного технічного університету
  • Наукові праці ВНТУ. 2024. № 1
  • Дивитися документ
Сайт інституційного репозитарію ВНТУ містить роботи, матеріали та файли, які були розміщені докторантами, аспірантами та студентами Вінницького Національного Технічного Університету. Для розширення функцій сайту рекомендується увімкнути JavaScript.

Застосування архітектури трансформер до задачі super-resolution

Автор
Козлов, С. Л.
Колесницький, О. К.
Дата
2024
Metadata
Показати повну інформацію
Collections
  • Наукові праці ВНТУ. 2024. № 1 [10]
Анотації
Протягом останніх 15-ти років згорткові нейронні мережі є основним підходом для вирішення задач комп'ютерного зору, і демонструють високий рівень продуктивності. Проте, архітектура трансформер, яка показала високі досягнення в галузі обробки природної мови, знаходить все ширше застосування до задач комп'ютерного зору і демонструє співставні або кращі результати. Нами розглянуто застосування архітектури трансформер до задачі super-resolution, а також наведено короткий огляд попередніх підходів. Безпосереднє застосування оригінальної архітектури трансформер дозволило забезпечити продуктивність, співставну з актуальними згортковими нейронними мережами. Проте, ефективне застосування архітектури трансформер до задач комп'ютерного зору пов'язане з викликами, які витікають з відмінностей між візуальним і мовленнєвим доменами. Перша відмінність - масштаб, оскільки зображення містять візуальні елементи різних масштабів, це ускладнює їх обробку за допомогою архітектури трансформер, що аналогічно до обробки токенів в ОПМ, працює з фрагментами одного розміру. Друга – об’єм інформації, адже обчислювальна складність обрахунку самоуваги квадратична довжині вхідної послідовності, що стає особливо критичним при обробці зображень високої роздільної здатності. У статті проведено аналіз 12 робіт з цієї тематики, опублікованих починаючи з 2021 року, які пропонують підходи до усунення зазначених складнощів. В проаналізованих роботах можуть бути виділені наступні напрямки: дослідження застосування локальної уваги з вікнами різних форм, зокрема вікнами розрідженої уваги; дослідження канальної самоуваги та її поєднання з просторовою; дослідження можливості розширення архітектури трансформер за допомогою згорткових блоків. Означені дослідження дозволили суттєво збільшити якість відтворених зображень, проте не є вичерпними.
URI:
https://ir.lib.vntu.edu.ua//handle/123456789/42849
Відкрити
Застосування архітектури трансформер до задачі super-resolution.pdf (1.096Mb)

Інституційний репозиторій

ГоловнаПошукДовідкаКонтактиПро нас

Ресурси

JetIQСайт бібліотекиСайт університетаЕлектронний каталог ВНТУ

Перегляд

Всі архівиСпільноти та колекціїЗа датою публікаціїАвторамиНазвамиТемамиТипВидавництвоМоваУДКISSNВидання, що міститьDOIЦя колекціяЗа датою публікаціїАвторамиНазвамиТемамиТипВидавництвоМоваУДКISSNВидання, що міститьDOI

Мій обліковий запис

ВхідРеєстрація

Статистика

View Usage Statistics

ISSN 2413-6360 | Головна | Відправити відгук | Довідка | Контакти | Про нас
© 2016 Vinnytsia National Technical University | Extra plugins code by VNTU Linuxoids | Powered by DSpace
Працює за підтримки 
НТБ ВНТУ