Показати скорочену інформацію

dc.contributor.authorЖуков, С. О.uk
dc.contributor.authorРудзевич, О. В.uk
dc.contributor.authorZhukov, S. O.en
dc.date.accessioned2025-09-18T08:48:37Z
dc.date.available2025-09-18T08:48:37Z
dc.date.issued2025
dc.identifier.citationЖуков С. О., Рудзевич О. В. Оптимізація глибоких нейронних мереж для класифікації емоційного стану мовлення з використанням динамічного квантування // Наукові праці ВНТУ. 2025. Вип. 2. URI: https://praci.vntu.edu.ua/index.php/praci/article/view/811.uk
dc.identifier.issn2307-5376
dc.identifier.urihttps://ir.lib.vntu.edu.ua//handle/123456789/49347
dc.description.abstractУ статті представлено результати системного дослідження з аналізу емоційної тональності аудіозаписів із використанням методів глибокого навчання. Основною метою є створення моделі, здатної ефективно класифікувати емоції мовлення в умовах обмежених обчислювальних ресурсів без суттєвих втрат точності. Обґрунтовано актуальність проблеми для різних інформаційних систем реального часу, зокрема і висвітлено огляд наявних підходів з їхніми недоліками та можливостями для покращень. Далі було обрано набір даних для проведення дослідження, яким став «Emotional Speech Dataset». Для уніфікації довжини записів застосовано модифіковану стратегію заповнення нулями, що випадково розподіляє доповнення між початком і кінцем сигналу. У процесі передобробки видобуто як часові, так і часово-частотні ознаки аудіозаписів, що забезпечило багатше представлення властивостей вхідних даних. Після цього було виконано навчання нейронних мереж з використанням елементів з довгою короткочасною пам’яттю, з блоками багатоголової уваги, а також зі згортковими шарами. Найвищу точність показала модель зі згортковими шарами, а саме близько 95% на тестувальних даних, тоді як дві інші моделі мали точність 90 та 93 % відповідно. Для пришвидшення інференсу та зменшення розміру моделей було застосовано динамічне квантування, внаслідок чого нейронна мережа зі згортковими шарами погіршила показник точності на тестувальних даних до 92 %, однак швидкість інференсу зменшилася вчетверо і склала 0,4 мс, а обсяг пам’яті для зберігання зменшився більш ніж удесятеро і склав 74 кБ. Схожу поведінку щодо прискорення інференсу та зменшення обсягу пам’яті за рахунок пригнічення точності демонстрували і решта нейронних мереж. Аналіз результатів тестування на помилки показав те, що всі нейронні мережі якщо й помиляються, то найчастіше при сплутуванні радісної емоції з гнівної, а також нейтральної із сумною, що вказує на потребу подальшого розширення переліку ознак, зокрема врахування тембральних характеристик і інтонаційних закономірностей.uk
dc.language.isouk_UAuk_UA
dc.publisherВНТУuk
dc.relation.ispartofНаукові праці ВНТУ. Вип. 2.uk
dc.subjectемоційна тональністьuk
dc.subjectрозпізнавання емоційuk
dc.subjectаудіозаписuk
dc.subjectаудіомовленняuk
dc.subjectкласифікаціяuk
dc.subjectвидобування ознакuk
dc.subjectкласифікація мовленняuk
dc.subjectмашинне навчанняuk
dc.subjectглибоке навчанняuk
dc.subjectнейронна мережаuk
dc.subjectдовга короткочасна пам’ятьuk
dc.subjectбагатоголова увагаuk
dc.subjectзгортковий шарuk
dc.subjectLSTMen
dc.subjectCNNen
dc.subjectоптимізація нейронної мережіuk
dc.subjectдинамічне квантуванняuk
dc.titleОптимізація глибоких нейронних мереж для класифікації емоційного стану мовлення з використанням динамічного квантуванняuk
dc.typeArticle, professional native edition
dc.typeArticle
dc.identifier.udc004.8+004.032.26+159.942+534.4
dc.relation.referencesFeng Y., Devillers L. End-to-End Continuous Speech Emotion Recognition in Real-life Customer Service Call Center Conversations. 2023. arXiv preprint. URL: https://arxiv.org/abs/2310.02281 (дата звернення: 24.05.2025).en
dc.relation.referencesSpeech Emotion Classification. URL: https://github.com/Jason-Oleana/speech-emotion-classification/tree/main (дата звернення: 25.05.2025).en
dc.relation.referencesAudio Sentiment Analysis. URL: https://github.com/pontonkid/Audio-Sentiment-Analysis-/blob/main (дата звернення: 25.05.2025).en
dc.relation.referencesMaradithaya S., Katti A. Sentimental analysis of audio-based customer reviews without textual conversion. International Journal of Electrical and Computer Engineering (IJECE). 2024. №14 (1): 653. P. 653–661. DOI:10.11591/ijece.v14i1. URL: https://www.researchgate.net/publication/377878724_Sentimental_analysis_ of_audio_based_customer_reviews_without_textual_conversion (дата звернення: 25.05.2025).en
dc.relation.referencesAudio Sentiment Analysis. URL: https://github.com/Tilak612/Audio-Sentiment-Analysis (дата звернення: 25.05.2025)en
dc.relation.referencesEmotional Speech Dataset (ESD). Kaggle. URL: https://www.kaggle.com/datasets/nguyenthanhlim/emotionalspeech-dataset-esd (дата звернення: 26.05.2025).en
dc.relation.referencesApple Machine Learning Research Team. Personalized Hey Siri: An On-Device DNN-HMM Voice Trigger System. Machine Learning Research at Apple.2023. URL: https://machinelearning.apple.com/research/voice-trigger (дата звернення: 27.05.2025).en
dc.relation.references. Van Lieshout P., Pouplier M., Chartier J. Speech Sound Disorders in Children: An Articulatory Phonology Perspective. Frontiers in Psychology. 2020. URL: https://doi.org/10.3389/fpsyg.2019.02998 (дата звернення: 27.05.2025.en
dc.relation.referencesGondohanindijo J., Muljono E., Noersasongko E., Pujiono, Setiadi D. R. M. Multi-Features Audio Extraction for Speech Emotion Recognition Based on Deep Learning. International Journal of Advanced Computer Science and Applications (IJACSA). 2023. №6. Р. 23–29. URL: https://doi.org/10.14569/IJACSA.2023.0140623 (дата звернення: 27.05.2025)en
dc.relation.referencesМокін В. Б., Дратований М. В. Наука про дані: машинне навчання та інтелектуальний аналіз даних : електронний навчальний посібник комбінованого (локального та мережевого) використання. Вінниця : ВНТУ, 2024. 258 с.en
dc.relation.referencesМілян Н. Аналіз методів машинного навчання з вчителем. Міжнародна студентська науково-технічна конференція "Природничі та гуманітарні науки. Актуальні питання": матеріали конф., ТНТУ ім. Івана Пулюя. URL: https://elartu.tntu.edu.ua/bitstream/lib/25035/2/MSNK_2018v1_Milian_N-Analysis_of_supervised_machine_51- 52.pdf (дата звернення: 28.05.2025).en
dc.relation.referencesЛосенко А. В., Козачко О. М., Варчук І. В. Нейромережевий ансамбль для прогнозування часових рядів на основі Prophet та LSTM. Наукові праці Вінницького національного технічного університету. 2024. №4. URL: https://doi.org/10.31649/2307-5376-2024-4-49-57 (дата звернення: 28.05.2025).en
dc.relation.referencesChen Y., Pu H., Qu Y. An analysis of attention mechanisms and its variance in transformer. Applied and Computational Engineering. 2024. №47. Р. 164–176. URL: https://doi.org/10.54254/2755-2721/47/20241291 (дата звернення: 29.05.2025).en
dc.relation.referencesBhatt M., Sharma A., Singh A. A review of convolutional neural networks in computer vision. Artificial Intelligence Review. 2024. №57. URL: https://doi.org/10.1007/s10462-024-10721-6 (дата зверення: 29.05.2025).en
dc.relation.referencesDantas P. V., Silva Jr. W. S., Cordeiro L. C., Carvalho C. B. A comprehensive review of model compression techniques in machine learning. Applied Intelligence. 2024. V. 54. P. 11804–11844. URL: https://doi.org/10.1007/s10489-024-05747-w (дата зверення: 30.05.2025).en
dc.relation.referencesSECEDC. Kaggle. URL: https://www.kaggle.com/code/olesatthewheel/sec-edcen


Файли в цьому документі

Thumbnail

Даний документ включений в наступну(і) колекцію(ї)

Показати скорочену інформацію