Neurorecognition visualization in multitask end-to-end speech

Mamyrbayev, Orken; Pavlov, Sergii; Bekarystankyzy,  Akbayan; Oralbekova, Dina; Zhumazhanov, Bagashar; Azarova, Larysa; Mussayeva, Dinara; Koval, Tetiana; Gromaszek, Konrad; Issimov, Nurdaulet; Shiyapov, Kadrzhan; Павлов, С. В.; Азарова, Л. Є.

Автор

Mamyrbayev, Orken

Pavlov, Sergii

Bekarystankyzy, Akbayan

Oralbekova, Dina

Zhumazhanov, Bagashar

Azarova, Larysa

Mussayeva, Dinara

Koval, Tetiana

Gromaszek, Konrad

Issimov, Nurdaulet

Shiyapov, Kadrzhan

Павлов, С. В.

Азарова, Л. Є.

Дата

2023

Metadata

Показати повну інформацію

Collections

Наукові роботи каф. МЗ [525]

Анотації

Nowadays, speech-processing technologies with different language systems are successfully used in mobile and stationary devices. Kazakh is considered a low-resource language, which poses various challenges for conventional speech recognition methods. This paper presents a proposed model capable of multitasking and handling concurrent speech recognition, dialect identification, and speaker identification, all in an end-to-end framework. The developed multitask model enables training three different tasks within a single model. A multitask recognition system is created based on the WaveNet-CTC model. Experiments show that for the concrete task end-to-end multitask model has better performance than other models..

URI:

http://ir.lib.vntu.edu.ua//handle/123456789/41441

Відкрити

150318.pdf (685.2Kb)