Методи квантизації та компресії для оптимізації пам'яті в нейронних мережах для задач комп'ютерного зору
Автор
Середюк, Г. В.
Гармаш, В. В.
Seredyuk, H. A.
Garmash, V. V.
Дата
2025Metadata
Показати повну інформаціюCollections
Анотації
This paper investigates memory optimization methods for deep neural networks in computer vision tasks.
The approaches to quantization, pruning, and model compression are considered, which significantly reduce
memory requirements without substantial accuracy loss. The effectiveness of these methods is analyzed when
applied to image recognition and classification tasks. It has been established that a combined approach that
includes pruning, quantization, and Huffman coding can reduce model size by 35-49 times with accuracy
degradation of less than 1%. A comparative analysis of Post-Training Quantization (PTQ) and
Quantization-Aware Training (QAT) algorithms for the most common neural network architectures is
presented. У роботі досліджуються методи оптимізації пам'яті при використанні глибоких нейронних
мереж для задач комп'ютерного зору. Розглянуто підходи до квантизації, обрізання (pruning) та
компресії моделей, що дозволяють суттєво зменшити вимоги до пам'яті без значної втрати
точності. Проаналізовано ефективність цих методів при застосуванні до задач розпізнавання та
класифікації зображень. Встановлено, що комбінований підхід, який включає обрізання, квантизацію
та кодування Гаффмана, здатен зменшити розмір моделі до 35-49 разів при зниженні точності
менше ніж на 1%. Представлено порівняльний аналіз алгоритмів квантизації після навчання (PTQ)
та квантизації з урахуванням навчання (QAT) для найпоширеніших архітектур нейронних мереж.
URI:
https://ir.lib.vntu.edu.ua//handle/123456789/47694

