Показати скорочену інформацію

dc.contributor.authorМарчук, А. Ю.uk
dc.contributor.authorMarchuk, A. Y.uk
dc.date.accessioned2026-01-29T07:54:44Z
dc.date.available2026-01-29T07:54:44Z
dc.date.issued2025
dc.identifier.citationМарчук А. Ю. Метод обробки отоскопічних зображень з використанням октавної згортки та трансформерів // Наукові праці Вінницького національного технічного університету. Електрон. текст. дані. 2025. № 2. URI: https://praci.vntu.edu.ua/index.php/praci/article/view/829.uk
dc.identifier.issn2307-5376
dc.identifier.urihttps://ir.lib.vntu.edu.ua//handle/123456789/50548
dc.description.abstractСтаття присвячена розробці методу обробки отоскопічних зображень який поєднує октавні згортки для вилучення різночастотних ознак та візуальні трансформатори для моделювання глобального контексту. Пропонована гібридна архітектура об'єднує ефективний аналіз різночастотних ознак за допомогою октавних згорток та глобальне моделювання контексту за допомогою трансформерів. Октавний згортковий блок дозволяє ефективно обробляти зображення з широким діапазоном просторових частот, розділяючи карти ознак на високочастотну та низькочастотну групи. Це дозволяє знизити обчислювальні витрати, оскільки низькочастотна частина обробляється з меншою просторовою роздільною здатністю, при цьому зберігається обмін інформацією між потоками. Високочастотний потік фокусується на точних деталях, тоді як низькочастотний захоплює ширші, абстрактніші особливості, збагачуючи обидва представлення. Для моделювання глобального контексту використовується SwinTransformer, який забезпечує ієрархічну структуру ознак та лінійно-масштабоване захоплення глобального контексту, уникаючи обмежень традиційних трансформерів щодо високої роздільної здатності зображень. Проведено порівняння отриманих результатів із відомими SOTA-моделями та стандартними методами обробки зображень, такими як U-Net. Запропонований метод демонструє високу продуктивність та ефективність, особливо для задач, що вимагають обробки зображень високої роздільної здатності. Його обчислювальна складність є достатньо низькою завдяки роздільній обробці високочастотних та низькочастотних частин зображення, а також високою здатністю до збереження просторових деталей. Незважаючи на архітектурну складність та необхідність певних обчислювальних ресурсів для Swin-transformer, метод є перспективним для автоматизованої класифікації та діагностики патологій вуха.uk
dc.language.isouk_UAuk_UA
dc.publisherВНТУuk
dc.relation.ispartofНаукові праці Вінницького національного технічного університету. № 2 : .uk
dc.relation.urihttps://praci.vntu.edu.ua/index.php/praci/article/view/829
dc.subjectоктавна згорткаuk
dc.subjectглибоке навчанняuk
dc.subjectглобальний контекстuk
dc.subjectрізночастотні ознакиuk
dc.subjectвізуальні трансформериuk
dc.subjectзгорткові нейронні мережіuk
dc.subjectметодuk
dc.subjectсегментація зображенняuk
dc.subjectтензорuk
dc.subjectвисокочастотні картиuk
dc.subjectнизькочастотні картиuk
dc.titleМетод обробки отоскопічних зображень з використанням октавної згортки та трансформерівuk
dc.typeArticle, professional native edition
dc.typeArticle
dc.identifier.udc004.932.2
dc.relation.referencesChen Z., Cao Z., Dong R. Deep Learning in Otoendoscopy for Ear Disease Diagnosis: A Review.2023. Journal of Medical Imaging and Health Informatics. 2023. No13(1). P. 1–10.en
dc.relation.referencesHuang S. Challenges and Opportunities in AI-Assisted Otoscopy. EEE Transactions on Biomedical Engineering. 2022. No69. P.2150–2160.en
dc.relation.referencesZhang J. Early Stage Disease Detection in Otoscopy: A Deep Learning Approach. Artificial Intelligence in Medicine. 2021. No118. P. 5–12.en
dc.relation.referencesChen Y., Octave Convolutions for Visual Recognition. Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019. P. 2831–2840.en
dc.relation.referencesLiu Z. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows. Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021. P. 10014–10018.en
dc.relation.referencesDosovitskiy A. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. International Conference on Learning Representations (ICLR). 2021. P. 4–9.en
dc.relation.referencesPaszke A. Py Torch: An Imperative Style, High-Performance Deep Learning Library. Advances in Neural Information Processing Systems (NeurIPS). 2019. P. 32en
dc.relation.referencesRonneberger O., Fischer P., Brox T. U-Net: Convolutional Networks for Biomedical Image Segmentation. International Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI). 2015. P. 234–241.en
dc.identifier.doihttps://doi.org/10.31649/2307-5376-2025-2-93-100


Файли в цьому документі

Thumbnail

Даний документ включений в наступну(і) колекцію(ї)

Показати скорочену інформацію