Оптимізація глибоких нейронних мереж для класифікації емоційного стану мовлення з використанням динамічного квантування

Жуков, С. О.; Рудзевич, О. В.; Zhukov, S. O.

dc.contributor.author	Жуков, С. О.	uk
dc.contributor.author	Рудзевич, О. В.	uk
dc.contributor.author	Zhukov, S. O.	en
dc.date.accessioned	2025-09-18T08:48:37Z
dc.date.available	2025-09-18T08:48:37Z
dc.date.issued	2025
dc.identifier.citation	Жуков С. О., Рудзевич О. В. Оптимізація глибоких нейронних мереж для класифікації емоційного стану мовлення з використанням динамічного квантування // Наукові праці ВНТУ. 2025. Вип. 2. URI: https://praci.vntu.edu.ua/index.php/praci/article/view/811.	uk
dc.identifier.issn	2307-5376
dc.identifier.uri	https://ir.lib.vntu.edu.ua//handle/123456789/49347
dc.description.abstract	У статті представлено результати системного дослідження з аналізу емоційної тональності аудіозаписів із використанням методів глибокого навчання. Основною метою є створення моделі, здатної ефективно класифікувати емоції мовлення в умовах обмежених обчислювальних ресурсів без суттєвих втрат точності. Обґрунтовано актуальність проблеми для різних інформаційних систем реального часу, зокрема і висвітлено огляд наявних підходів з їхніми недоліками та можливостями для покращень. Далі було обрано набір даних для проведення дослідження, яким став «Emotional Speech Dataset». Для уніфікації довжини записів застосовано модифіковану стратегію заповнення нулями, що випадково розподіляє доповнення між початком і кінцем сигналу. У процесі передобробки видобуто як часові, так і часово-частотні ознаки аудіозаписів, що забезпечило багатше представлення властивостей вхідних даних. Після цього було виконано навчання нейронних мереж з використанням елементів з довгою короткочасною пам’яттю, з блоками багатоголової уваги, а також зі згортковими шарами. Найвищу точність показала модель зі згортковими шарами, а саме близько 95% на тестувальних даних, тоді як дві інші моделі мали точність 90 та 93 % відповідно. Для пришвидшення інференсу та зменшення розміру моделей було застосовано динамічне квантування, внаслідок чого нейронна мережа зі згортковими шарами погіршила показник точності на тестувальних даних до 92 %, однак швидкість інференсу зменшилася вчетверо і склала 0,4 мс, а обсяг пам’яті для зберігання зменшився більш ніж удесятеро і склав 74 кБ. Схожу поведінку щодо прискорення інференсу та зменшення обсягу пам’яті за рахунок пригнічення точності демонстрували і решта нейронних мереж. Аналіз результатів тестування на помилки показав те, що всі нейронні мережі якщо й помиляються, то найчастіше при сплутуванні радісної емоції з гнівної, а також нейтральної із сумною, що вказує на потребу подальшого розширення переліку ознак, зокрема врахування тембральних характеристик і інтонаційних закономірностей.	uk
dc.language.iso	uk_UA	uk_UA
dc.publisher	ВНТУ	uk
dc.relation.ispartof	Наукові праці ВНТУ. Вип. 2.	uk
dc.subject	емоційна тональність	uk
dc.subject	розпізнавання емоцій	uk
dc.subject	аудіозапис	uk
dc.subject	аудіомовлення	uk
dc.subject	класифікація	uk
dc.subject	видобування ознак	uk
dc.subject	класифікація мовлення	uk
dc.subject	машинне навчання	uk
dc.subject	глибоке навчання	uk
dc.subject	нейронна мережа	uk
dc.subject	довга короткочасна пам’ять	uk
dc.subject	багатоголова увага	uk
dc.subject	згортковий шар	uk
dc.subject	LSTM	en
dc.subject	CNN	en
dc.subject	оптимізація нейронної мережі	uk
dc.subject	динамічне квантування	uk
dc.title	Оптимізація глибоких нейронних мереж для класифікації емоційного стану мовлення з використанням динамічного квантування	uk
dc.type	Article, professional native edition
dc.type	Article
dc.identifier.udc	004.8+004.032.26+159.942+534.4
dc.relation.references	Feng Y., Devillers L. End-to-End Continuous Speech Emotion Recognition in Real-life Customer Service Call Center Conversations. 2023. arXiv preprint. URL: https://arxiv.org/abs/2310.02281 (дата звернення: 24.05.2025).	en
dc.relation.references	Speech Emotion Classification. URL: https://github.com/Jason-Oleana/speech-emotion-classification/tree/main (дата звернення: 25.05.2025).	en
dc.relation.references	Audio Sentiment Analysis. URL: https://github.com/pontonkid/Audio-Sentiment-Analysis-/blob/main (дата звернення: 25.05.2025).	en
dc.relation.references	Maradithaya S., Katti A. Sentimental analysis of audio-based customer reviews without textual conversion. International Journal of Electrical and Computer Engineering (IJECE). 2024. №14 (1): 653. P. 653–661. DOI:10.11591/ijece.v14i1. URL: https://www.researchgate.net/publication/377878724_Sentimental_analysis_ of_audio_based_customer_reviews_without_textual_conversion (дата звернення: 25.05.2025).	en
dc.relation.references	Audio Sentiment Analysis. URL: https://github.com/Tilak612/Audio-Sentiment-Analysis (дата звернення: 25.05.2025)	en
dc.relation.references	Emotional Speech Dataset (ESD). Kaggle. URL: https://www.kaggle.com/datasets/nguyenthanhlim/emotionalspeech-dataset-esd (дата звернення: 26.05.2025).	en
dc.relation.references	Apple Machine Learning Research Team. Personalized Hey Siri: An On-Device DNN-HMM Voice Trigger System. Machine Learning Research at Apple.2023. URL: https://machinelearning.apple.com/research/voice-trigger (дата звернення: 27.05.2025).	en
dc.relation.references	. Van Lieshout P., Pouplier M., Chartier J. Speech Sound Disorders in Children: An Articulatory Phonology Perspective. Frontiers in Psychology. 2020. URL: https://doi.org/10.3389/fpsyg.2019.02998 (дата звернення: 27.05.2025.	en
dc.relation.references	Gondohanindijo J., Muljono E., Noersasongko E., Pujiono, Setiadi D. R. M. Multi-Features Audio Extraction for Speech Emotion Recognition Based on Deep Learning. International Journal of Advanced Computer Science and Applications (IJACSA). 2023. №6. Р. 23–29. URL: https://doi.org/10.14569/IJACSA.2023.0140623 (дата звернення: 27.05.2025)	en
dc.relation.references	Мокін В. Б., Дратований М. В. Наука про дані: машинне навчання та інтелектуальний аналіз даних : електронний навчальний посібник комбінованого (локального та мережевого) використання. Вінниця : ВНТУ, 2024. 258 с.	en
dc.relation.references	Мілян Н. Аналіз методів машинного навчання з вчителем. Міжнародна студентська науково-технічна конференція "Природничі та гуманітарні науки. Актуальні питання": матеріали конф., ТНТУ ім. Івана Пулюя. URL: https://elartu.tntu.edu.ua/bitstream/lib/25035/2/MSNK_2018v1_Milian_N-Analysis_of_supervised_machine_51- 52.pdf (дата звернення: 28.05.2025).	en
dc.relation.references	Лосенко А. В., Козачко О. М., Варчук І. В. Нейромережевий ансамбль для прогнозування часових рядів на основі Prophet та LSTM. Наукові праці Вінницького національного технічного університету. 2024. №4. URL: https://doi.org/10.31649/2307-5376-2024-4-49-57 (дата звернення: 28.05.2025).	en
dc.relation.references	Chen Y., Pu H., Qu Y. An analysis of attention mechanisms and its variance in transformer. Applied and Computational Engineering. 2024. №47. Р. 164–176. URL: https://doi.org/10.54254/2755-2721/47/20241291 (дата звернення: 29.05.2025).	en
dc.relation.references	Bhatt M., Sharma A., Singh A. A review of convolutional neural networks in computer vision. Artificial Intelligence Review. 2024. №57. URL: https://doi.org/10.1007/s10462-024-10721-6 (дата зверення: 29.05.2025).	en
dc.relation.references	Dantas P. V., Silva Jr. W. S., Cordeiro L. C., Carvalho C. B. A comprehensive review of model compression techniques in machine learning. Applied Intelligence. 2024. V. 54. P. 11804–11844. URL: https://doi.org/10.1007/s10489-024-05747-w (дата зверення: 30.05.2025).	en
dc.relation.references	SECEDC. Kaggle. URL: https://www.kaggle.com/code/olesatthewheel/sec-edc	en

Файли в цьому документі

Ім'я:: 185837.pdf
Розмір:: 1.061Mb
Формат:: PDF

Відкрити

Даний документ включений в наступну(і) колекцію(ї)

Наукові роботи каф. САІТ [429]
статті, матеріали конференцій
Наукові праці ВНТУ. 2025. № 2 [4]

Показати скорочену інформацію