• English
    • українська
  • українська 
    • English
    • українська
  • Увійти
Дивитися документ 
  • Головна
  • Матеріали конференцій ВНТУ
  • Молодь в науці: дослідження, проблеми, перспективи
  • Молодь в науці: дослідження, проблеми, перспективи (МН-2025)
  • Дивитися документ
  • Головна
  • Матеріали конференцій ВНТУ
  • Молодь в науці: дослідження, проблеми, перспективи
  • Молодь в науці: дослідження, проблеми, перспективи (МН-2025)
  • Дивитися документ
Сайт інституційного репозитарію ВНТУ містить роботи, матеріали та файли, які були розміщені докторантами, аспірантами та студентами Вінницького Національного Технічного Університету. Для розширення функцій сайту рекомендується увімкнути JavaScript.

Аналіз структури моделей машинного навчання для розпізнавання емоційної тональності аудіозаписів

Автор
Рудзевич, О. В.
Жуков, С. О.
Zhukov, S. O.
Дата
2025
Metadata
Показати повну інформацію
Collections
  • Молодь в науці: дослідження, проблеми, перспективи (МН-2025) [960]
Анотації
У роботі проведено огляд методів машинного навчання для розпізнавання емоційної тональності аудіозаписів. Показано, що традиційні алгоритми (k-NN, лінійні моделі, дерева рішень) обмежені у врахуванні часових закономірностей, адже перетворюють тривимірні спектрально-часові ознаки у двовимірні представлення. Розглянуто можливості штучних нейронних мереж, зокрема RNN, LSTM, механізми уваги та Conv1D, які зберігають часо-частотну структуру сигналу й виявляють локальні та глобальні патерни. Підкреслено важливість вибору архітектурних блоків для забезпечення точності класифікації і збереження часових залежностей у аудіоданих.
 
This paper reviews machine learning methods for recognizing the emotional tone of audio recordings. It is shown that traditional algorithms (k-NN, linear models, decision trees) are limited in taking into account temporal patterns, since they convert three-dimensional spectral and temporal features into two-dimensional representations. The possibilities of artificial neural networks, in particular RNN, LSTM, attention mechanisms, and Conv1D, which preserve the timefrequency structure of the signal and detect local and global patterns, are considered. The importance of choosing architectural blocks to ensure classification accuracy and preservation of time dependencies in audio data is emphasized.
 
URI:
https://ir.lib.vntu.edu.ua//handle/123456789/48052
Відкрити
25079.pdf (405.5Kb)

Інституційний репозиторій

ГоловнаПошукДовідкаКонтактиПро нас

Ресурси

JetIQСайт бібліотекиСайт університетаЕлектронний каталог ВНТУ

Перегляд

Всі архівиСпільноти та колекціїЗа датою публікаціїАвторамиНазвамиТемамиТипВидавництвоМоваУДКISSNВидання, що міститьDOIЦя колекціяЗа датою публікаціїАвторамиНазвамиТемамиТипВидавництвоМоваУДКISSNВидання, що міститьDOI

Мій обліковий запис

ВхідРеєстрація

Статистика

View Usage Statistics

ISSN 2413-6360 | Головна | Відправити відгук | Довідка | Контакти | Про нас
© 2016 Vinnytsia National Technical University | Extra plugins code by VNTU Linuxoids | Powered by DSpace
Працює за підтримки 
НТБ ВНТУ