Оцінювання основного тону у автоматизованій системі розпізнавання мовця критичного застосування
Abstract
Запропоновано метод оцінювання трендів основного тону, який, на відміну від існуючих, використовує оптимізовану із застосуванням дерева переходів факторіальну приховану Марковську модель для формування трендів основного тону узагальнюючи при цьому інформацію від детекторів станів основного тону, на основі глибокої та рекурентної нейромереж, що дозволило спрогнозувати оцінки станів основного тону, використовуючи довготривалу інформацію з пакетів фреймів мовного сигналу, описати часову динаміку основного тону та зменшити вплив шумів у мовному сигналі на якість оцінок основного тону. Створено методи оцінювання станів основного тону на основі глибокої та рекурентної нейромереж та метод оцінювання трендів основного тону на основі факторіальної прихованої Марковської моделі (ФПММ). Проведено дослідження для оптимізації параметрів запропонованих методів для використання у складі автоматизованої системи розпізнавання мовця критичного застосування (АСРМКЗ). Зокрема, результати досліджень дозволяють рекомендувати нормовані за потужністю кепстральні ознаки як базові для оцінювання основного тону запропонованими методами, застосовувати в роботі методів пакети фреймів тривалістю 10 фреймів, будувати описані у методах нейромережі, використовуючи на прихованих шарах 1024 нейрони та використовувати 68 станів для опису основного тону. Результати проведених досліджень залежності якості розпізнавання мовців АСРМКЗ від рівня відношення сигнал/шум (ВСШ) у вхідному мовному матеріалі та оцінками основного тону, отриманими в результаті роботи створених методів, параметри яких оптимізовано з урахуванням результатів проведених досліджень, показали, що для всіх рівнів ВСШ найточніші оцінки основного тону дає ФПММ-метод, забезпечуючи імовірність правильного розпізнавання мовців АСРМКЗ на рівні 96…99 % для обраної тестувальної вибірки. existing ones, uses a factorial hidden Markov model optimized with the junction tree algorithm for pitch trend estimation, generalizing information from pitch state detectors based on deep and recurrent neural networks, with which it is allowed precisely to predict a pitch trend using long-term information from speech frames packets, describe the dynamics of the pitch in the time domain and reduce the noise influence on the quality of pitch estimates. Methods for estimating pitch states based on deep and recurrent neural networks and a method for estimating the pitch trend based on the factorial hidden Markov model (FHMM) are developed. A study was carried out to optimize the parameters of the proposed methods for use as part of the automated speaker recognition system for critical use (ASRSCU). In particular, the results of the research make it possible to recommend power-normalized cepstral characteristics as the basis for estimating the pitch by the proposed methods, to apply frames packets with a duration of 10 frames, to use 1024 neurons in the hidden layers of neural networks that implement the proposed methods, and to use 68 states to describe the pitch. The results of the conducted researches of the dependence of the quality of speakers recognition by the ASRSCU from the level of the signal-to-noise ratio (SNR) in the input speech material and the pitch estimates obtained as a result of the work of the created methods, the parameters of which are optimized taking into account the results of the conducted studies, showed that for all levels of SNR the exact pitch estimate is provided by the FHMM method, showing the correct speakers recognition probability by the ASRSCU at a level of 96…99 % for the selected test sample. Предложен метод оценки трендов основного тона, который в отличие от существующих, использует оптимизированную с применением дерева переходов факториальную скрытую Марковскую модель для формирования трендов основного тона, обобщая информацию от детекторов состояний основного тона на основе глубокой и рекуррентной нейросетей, что позволило спрогнозировать оценки состояний основного тона, используя долговременную информацию из пакетов фреймов речевого сигнала, описать динамику основного тона во времени и уменьшить влияние шумов в речевом сигнале на качество оценок основного тона. Созданы методы оценки состояний основного тона на основе глубокой и рекуррентной нейросетей и метод оценки трендов основного тона на основе факториальной скрытой Марковской модели (ФСММ). Проведено исследование для оптимизации параметров предложенных методов для использования в составе автоматизированной системы распознавания диктора критического применения (АСРДКП). В частности, результаты исследований позволяют рекомендовать нормированные по мощности кепстральные признаки как базовые для оценки основного тона предложенными методами, применять при работе методов пакеты фреймов продолжительностью 10 фреймов, использовать 1024 нейрона в скрытых слоях нейросетей, которые реализуют предложенные методы, и использовать 68 состояний для описания основного тона. Результаты проведенных исследований зависимости качества распознавания дикторов АСРДКП от уровня отношение сигнал/шум (ОСШ) во входном речевом материале и оценками основного тона, полученными в результате работы предложенных методов, параметры которых оптимизированы с учетом результатов проведенных исследований, показали, что для всех уровней ОСШ самые точные оценки основного тона обеспечивает ФСММ-метод, показывая вероятность правильного распознавания дикторов АСРДКП на уровне 96…99 % для выбранной тестовой выборки.
URI:
http://ir.lib.vntu.edu.ua//handle/123456789/25165