• English
    • українська
  • українська 
    • English
    • українська
  • Увійти
Дивитися документ 
  • Головна
  • Періодичні видання ВНТУ
  • Наукові праці Вінницького національного технічного університету
  • Наукові праці ВНТУ. 2025. № 2
  • Дивитися документ
  • Головна
  • Періодичні видання ВНТУ
  • Наукові праці Вінницького національного технічного університету
  • Наукові праці ВНТУ. 2025. № 2
  • Дивитися документ
Сайт інституційного репозитарію ВНТУ містить роботи, матеріали та файли, які були розміщені докторантами, аспірантами та студентами Вінницького Національного Технічного Університету. Для розширення функцій сайту рекомендується увімкнути JavaScript.

Оптимізація глибоких нейронних мереж для класифікації емоційного стану мовлення з використанням динамічного квантування

Автор
Жуков, С. О.
Рудзевич, О. В.
Zhukov, S. O.
Дата
2025
Metadata
Показати повну інформацію
Collections
  • Наукові роботи каф. САІТ [429]
  • Наукові праці ВНТУ. 2025. № 2 [3]
Анотації
У статті представлено результати системного дослідження з аналізу емоційної тональності аудіозаписів із використанням методів глибокого навчання. Основною метою є створення моделі, здатної ефективно класифікувати емоції мовлення в умовах обмежених обчислювальних ресурсів без суттєвих втрат точності. Обґрунтовано актуальність проблеми для різних інформаційних систем реального часу, зокрема і висвітлено огляд наявних підходів з їхніми недоліками та можливостями для покращень. Далі було обрано набір даних для проведення дослідження, яким став «Emotional Speech Dataset». Для уніфікації довжини записів застосовано модифіковану стратегію заповнення нулями, що випадково розподіляє доповнення між початком і кінцем сигналу. У процесі передобробки видобуто як часові, так і часово-частотні ознаки аудіозаписів, що забезпечило багатше представлення властивостей вхідних даних. Після цього було виконано навчання нейронних мереж з використанням елементів з довгою короткочасною пам’яттю, з блоками багатоголової уваги, а також зі згортковими шарами. Найвищу точність показала модель зі згортковими шарами, а саме близько 95% на тестувальних даних, тоді як дві інші моделі мали точність 90 та 93 % відповідно. Для пришвидшення інференсу та зменшення розміру моделей було застосовано динамічне квантування, внаслідок чого нейронна мережа зі згортковими шарами погіршила показник точності на тестувальних даних до 92 %, однак швидкість інференсу зменшилася вчетверо і склала 0,4 мс, а обсяг пам’яті для зберігання зменшився більш ніж удесятеро і склав 74 кБ. Схожу поведінку щодо прискорення інференсу та зменшення обсягу пам’яті за рахунок пригнічення точності демонстрували і решта нейронних мереж. Аналіз результатів тестування на помилки показав те, що всі нейронні мережі якщо й помиляються, то найчастіше при сплутуванні радісної емоції з гнівної, а також нейтральної із сумною, що вказує на потребу подальшого розширення переліку ознак, зокрема врахування тембральних характеристик і інтонаційних закономірностей.
URI:
https://ir.lib.vntu.edu.ua//handle/123456789/49347
Відкрити
185837.pdf (1.061Mb)

Інституційний репозиторій

ГоловнаПошукДовідкаКонтактиПро нас

Ресурси

JetIQСайт бібліотекиСайт університетаЕлектронний каталог ВНТУ

Перегляд

Всі архівиСпільноти та колекціїЗа датою публікаціїАвторамиНазвамиТемамиТипВидавництвоМоваУДКISSNВидання, що міститьDOIЦя колекціяЗа датою публікаціїАвторамиНазвамиТемамиТипВидавництвоМоваУДКISSNВидання, що міститьDOI

Мій обліковий запис

ВхідРеєстрація

Статистика

View Usage Statistics

ISSN 2413-6360 | Головна | Відправити відгук | Довідка | Контакти | Про нас
© 2016 Vinnytsia National Technical University | Extra plugins code by VNTU Linuxoids | Powered by DSpace
Працює за підтримки 
НТБ ВНТУ