• English
    • українська
  • English 
    • English
    • українська
  • Login
View Item 
  • Frontpage
  • Матеріали конференцій ВНТУ
  • Молодь в науці: дослідження, проблеми, перспективи
  • Молодь в науці: дослідження, проблеми, перспективи (МН-2025)
  • View Item
  • Frontpage
  • Матеріали конференцій ВНТУ
  • Молодь в науці: дослідження, проблеми, перспективи
  • Молодь в науці: дослідження, проблеми, перспективи (МН-2025)
  • View Item
Сайт інституційного репозитарію ВНТУ містить роботи, матеріали та файли, які були розміщені докторантами, аспірантами та студентами Вінницького Національного Технічного Університету. Для розширення функцій сайту рекомендується увімкнути JavaScript.

Аналіз структури моделей машинного навчання для розпізнавання емоційної тональності аудіозаписів

Author
Рудзевич, О. В.
Жуков, С. О.
Zhukov, S. O.
Date
2025
Metadata
Show full item record
Collections
  • Молодь в науці: дослідження, проблеми, перспективи (МН-2025) [960]
Abstract
У роботі проведено огляд методів машинного навчання для розпізнавання емоційної тональності аудіозаписів. Показано, що традиційні алгоритми (k-NN, лінійні моделі, дерева рішень) обмежені у врахуванні часових закономірностей, адже перетворюють тривимірні спектрально-часові ознаки у двовимірні представлення. Розглянуто можливості штучних нейронних мереж, зокрема RNN, LSTM, механізми уваги та Conv1D, які зберігають часо-частотну структуру сигналу й виявляють локальні та глобальні патерни. Підкреслено важливість вибору архітектурних блоків для забезпечення точності класифікації і збереження часових залежностей у аудіоданих.
 
This paper reviews machine learning methods for recognizing the emotional tone of audio recordings. It is shown that traditional algorithms (k-NN, linear models, decision trees) are limited in taking into account temporal patterns, since they convert three-dimensional spectral and temporal features into two-dimensional representations. The possibilities of artificial neural networks, in particular RNN, LSTM, attention mechanisms, and Conv1D, which preserve the timefrequency structure of the signal and detect local and global patterns, are considered. The importance of choosing architectural blocks to ensure classification accuracy and preservation of time dependencies in audio data is emphasized.
 
URI:
https://ir.lib.vntu.edu.ua//handle/123456789/48052
View/Open
25079.pdf (405.5Kb)

Institutional Repository

FrontpageSearchHelpContact UsAbout Us

University Resources

JetIQLibrary websiteUniversity websiteE-catalog of VNTU

Browse

All of DSpaceCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsTypePublisherLanguageUdcISSNPublicationDOIThis CollectionBy Issue DateAuthorsTitlesSubjectsTypePublisherLanguageUdcISSNPublicationDOI

My Account

LoginRegister

Statistics

View Usage Statistics

ISSN 2413-6360 | Frontpage | Send Feedback | Help | Contact Us | About Us
© 2016 Vinnytsia National Technical University | Extra plugins code by VNTU Linuxoids | Powered by DSpace
Працює за підтримки 
НТБ ВНТУ