Аналіз структури моделей машинного навчання для розпізнавання емоційної тональності аудіозаписів

Рудзевич, О. В.; Жуков, С. О.; Zhukov, S. O.

Author

Рудзевич, О. В.

Жуков, С. О.

Zhukov, S. O.

Date

2025

Metadata

Show full item record

Collections

Молодь в науці: дослідження, проблеми, перспективи (МН-2025) [960]

Abstract

У роботі проведено огляд методів машинного навчання для розпізнавання емоційної тональності аудіозаписів. Показано, що традиційні алгоритми (k-NN, лінійні моделі, дерева рішень) обмежені у врахуванні часових закономірностей, адже перетворюють тривимірні спектрально-часові ознаки у двовимірні представлення. Розглянуто можливості штучних нейронних мереж, зокрема RNN, LSTM, механізми уваги та Conv1D, які зберігають часо-частотну структуру сигналу й виявляють локальні та глобальні патерни. Підкреслено важливість вибору архітектурних блоків для забезпечення точності класифікації і збереження часових залежностей у аудіоданих.

This paper reviews machine learning methods for recognizing the emotional tone of audio recordings. It is shown that traditional algorithms (k-NN, linear models, decision trees) are limited in taking into account temporal patterns, since they convert three-dimensional spectral and temporal features into two-dimensional representations. The possibilities of artificial neural networks, in particular RNN, LSTM, attention mechanisms, and Conv1D, which preserve the timefrequency structure of the signal and detect local and global patterns, are considered. The importance of choosing architectural blocks to ensure classification accuracy and preservation of time dependencies in audio data is emphasized.

URI:

https://ir.lib.vntu.edu.ua//handle/123456789/48052

View/Open

25079.pdf (405.5Kb)