dc.contributor.author | Жуков, С. О. | uk |
dc.contributor.author | Рудзевич, О. В. | uk |
dc.contributor.author | Zhukov, S. O. | en |
dc.date.accessioned | 2025-09-18T08:48:37Z | |
dc.date.available | 2025-09-18T08:48:37Z | |
dc.date.issued | 2025 | |
dc.identifier.citation | Жуков С. О., Рудзевич О. В. Оптимізація глибоких нейронних мереж для класифікації емоційного стану мовлення з використанням динамічного квантування // Наукові праці ВНТУ. 2025. Вип. 2. URI: https://praci.vntu.edu.ua/index.php/praci/article/view/811. | uk |
dc.identifier.issn | 2307-5376 | |
dc.identifier.uri | https://ir.lib.vntu.edu.ua//handle/123456789/49347 | |
dc.description.abstract | У статті представлено результати системного дослідження з аналізу емоційної тональності
аудіозаписів із використанням методів глибокого навчання. Основною метою є створення моделі,
здатної ефективно класифікувати емоції мовлення в умовах обмежених обчислювальних ресурсів без
суттєвих втрат точності. Обґрунтовано актуальність проблеми для різних інформаційних систем
реального часу, зокрема і висвітлено огляд наявних підходів з їхніми недоліками та можливостями
для покращень. Далі було обрано набір даних для проведення дослідження, яким став «Emotional
Speech Dataset». Для уніфікації довжини записів застосовано модифіковану стратегію заповнення
нулями, що випадково розподіляє доповнення між початком і кінцем сигналу.
У процесі передобробки видобуто як часові, так і часово-частотні ознаки аудіозаписів, що
забезпечило багатше представлення властивостей вхідних даних. Після цього було виконано
навчання нейронних мереж з використанням елементів з довгою короткочасною пам’яттю, з
блоками багатоголової уваги, а також зі згортковими шарами. Найвищу точність показала модель
зі згортковими шарами, а саме близько 95% на тестувальних даних, тоді як дві інші моделі мали
точність 90 та 93 % відповідно.
Для пришвидшення інференсу та зменшення розміру моделей було застосовано динамічне
квантування, внаслідок чого нейронна мережа зі згортковими шарами погіршила показник точності
на тестувальних даних до 92 %, однак швидкість інференсу зменшилася вчетверо і склала 0,4 мс, а
обсяг пам’яті для зберігання зменшився більш ніж удесятеро і склав 74 кБ. Схожу поведінку щодо
прискорення інференсу та зменшення обсягу пам’яті за рахунок пригнічення точності
демонстрували і решта нейронних мереж.
Аналіз результатів тестування на помилки показав те, що всі нейронні мережі якщо й
помиляються, то найчастіше при сплутуванні радісної емоції з гнівної, а також нейтральної із
сумною, що вказує на потребу подальшого розширення переліку ознак, зокрема врахування
тембральних характеристик і інтонаційних закономірностей. | uk |
dc.language.iso | uk_UA | uk_UA |
dc.publisher | ВНТУ | uk |
dc.relation.ispartof | Наукові праці ВНТУ. Вип. 2. | uk |
dc.subject | емоційна тональність | uk |
dc.subject | розпізнавання емоцій | uk |
dc.subject | аудіозапис | uk |
dc.subject | аудіомовлення | uk |
dc.subject | класифікація | uk |
dc.subject | видобування ознак | uk |
dc.subject | класифікація мовлення | uk |
dc.subject | машинне навчання | uk |
dc.subject | глибоке навчання | uk |
dc.subject | нейронна мережа | uk |
dc.subject | довга короткочасна пам’ять | uk |
dc.subject | багатоголова увага | uk |
dc.subject | згортковий шар | uk |
dc.subject | LSTM | en |
dc.subject | CNN | en |
dc.subject | оптимізація нейронної мережі | uk |
dc.subject | динамічне квантування | uk |
dc.title | Оптимізація глибоких нейронних мереж для класифікації емоційного стану мовлення з використанням динамічного квантування | uk |
dc.type | Article, professional native edition | |
dc.type | Article | |
dc.identifier.udc | 004.8+004.032.26+159.942+534.4 | |
dc.relation.references | Feng Y., Devillers L. End-to-End Continuous Speech Emotion Recognition in Real-life Customer Service Call
Center Conversations. 2023. arXiv preprint. URL: https://arxiv.org/abs/2310.02281 (дата звернення: 24.05.2025). | en |
dc.relation.references | Speech Emotion Classification. URL: https://github.com/Jason-Oleana/speech-emotion-classification/tree/main
(дата звернення: 25.05.2025). | en |
dc.relation.references | Audio Sentiment Analysis. URL: https://github.com/pontonkid/Audio-Sentiment-Analysis-/blob/main (дата
звернення: 25.05.2025). | en |
dc.relation.references | Maradithaya S., Katti A. Sentimental analysis of audio-based customer reviews without textual conversion.
International Journal of Electrical and Computer Engineering (IJECE). 2024. №14 (1): 653. P. 653–661.
DOI:10.11591/ijece.v14i1. URL: https://www.researchgate.net/publication/377878724_Sentimental_analysis_
of_audio_based_customer_reviews_without_textual_conversion (дата звернення: 25.05.2025). | en |
dc.relation.references | Audio Sentiment Analysis. URL: https://github.com/Tilak612/Audio-Sentiment-Analysis (дата звернення:
25.05.2025) | en |
dc.relation.references | Emotional Speech Dataset (ESD). Kaggle. URL: https://www.kaggle.com/datasets/nguyenthanhlim/emotionalspeech-dataset-esd (дата звернення: 26.05.2025). | en |
dc.relation.references | Apple Machine Learning Research Team. Personalized Hey Siri: An On-Device DNN-HMM Voice Trigger
System. Machine Learning Research at Apple.2023. URL: https://machinelearning.apple.com/research/voice-trigger
(дата звернення: 27.05.2025). | en |
dc.relation.references | . Van Lieshout P., Pouplier M., Chartier J. Speech Sound Disorders in Children: An Articulatory Phonology
Perspective. Frontiers in Psychology. 2020. URL: https://doi.org/10.3389/fpsyg.2019.02998 (дата звернення:
27.05.2025. | en |
dc.relation.references | Gondohanindijo J., Muljono E., Noersasongko E., Pujiono, Setiadi D. R. M. Multi-Features Audio Extraction for
Speech Emotion Recognition Based on Deep Learning. International Journal of Advanced Computer Science and
Applications (IJACSA). 2023. №6. Р. 23–29. URL: https://doi.org/10.14569/IJACSA.2023.0140623 (дата звернення:
27.05.2025) | en |
dc.relation.references | Мокін В. Б., Дратований М. В. Наука про дані: машинне навчання та інтелектуальний аналіз даних :
електронний навчальний посібник комбінованого (локального та мережевого) використання. Вінниця : ВНТУ,
2024. 258 с. | en |
dc.relation.references | Мілян Н. Аналіз методів машинного навчання з вчителем. Міжнародна студентська науково-технічна
конференція "Природничі та гуманітарні науки. Актуальні питання": матеріали конф., ТНТУ ім. Івана Пулюя.
URL: https://elartu.tntu.edu.ua/bitstream/lib/25035/2/MSNK_2018v1_Milian_N-Analysis_of_supervised_machine_51-
52.pdf (дата звернення: 28.05.2025). | en |
dc.relation.references | Лосенко А. В., Козачко О. М., Варчук І. В. Нейромережевий ансамбль для прогнозування часових рядів
на основі Prophet та LSTM. Наукові праці Вінницького національного технічного університету. 2024. №4.
URL: https://doi.org/10.31649/2307-5376-2024-4-49-57 (дата звернення: 28.05.2025). | en |
dc.relation.references | Chen Y., Pu H., Qu Y. An analysis of attention mechanisms and its variance in transformer. Applied and
Computational Engineering. 2024. №47. Р. 164–176. URL: https://doi.org/10.54254/2755-2721/47/20241291 (дата
звернення: 29.05.2025). | en |
dc.relation.references | Bhatt M., Sharma A., Singh A. A review of convolutional neural networks in computer vision. Artificial
Intelligence Review. 2024. №57. URL: https://doi.org/10.1007/s10462-024-10721-6 (дата зверення: 29.05.2025). | en |
dc.relation.references | Dantas P. V., Silva Jr. W. S., Cordeiro L. C., Carvalho C. B. A comprehensive review of model compression
techniques in machine learning. Applied Intelligence. 2024. V. 54. P. 11804–11844.
URL: https://doi.org/10.1007/s10489-024-05747-w (дата зверення: 30.05.2025). | en |
dc.relation.references | SECEDC. Kaggle. URL: https://www.kaggle.com/code/olesatthewheel/sec-edc | en |