Оцінювання основного тону у автоматизованій системі розпізнавання мовця критичного застосування

Ковтун, В. В.

dc.contributor.author	Ковтун, В. В.	uk
dc.date.accessioned	2019-05-29T08:51:03Z
dc.date.available	2019-05-29T08:51:03Z
dc.date.issued	2018
dc.identifier.citation	Ковтун В. В. Оцінювання основного тону у автоматизованій системі розпізнавання мовця критичного застосування [Текст] / В. В. Ковтун // Вісник Вінницького політехнічного інституту. – 2018. – № 4. – С. 61-73.	uk
dc.identifier.issn	1997–9266
dc.identifier.issn	1997–9274
dc.identifier.uri	http://ir.lib.vntu.edu.ua//handle/123456789/25165
dc.description.abstract	Запропоновано метод оцінювання трендів основного тону, який, на відміну від існуючих, використовує оптимізовану із застосуванням дерева переходів факторіальну приховану Марковську модель для формування трендів основного тону узагальнюючи при цьому інформацію від детекторів станів основного тону, на основі глибокої та рекурентної нейромереж, що дозволило спрогнозувати оцінки станів основного тону, використовуючи довготривалу інформацію з пакетів фреймів мовного сигналу, описати часову динаміку основного тону та зменшити вплив шумів у мовному сигналі на якість оцінок основного тону. Створено методи оцінювання станів основного тону на основі глибокої та рекурентної нейромереж та метод оцінювання трендів основного тону на основі факторіальної прихованої Марковської моделі (ФПММ). Проведено дослідження для оптимізації параметрів запропонованих методів для використання у складі автоматизованої системи розпізнавання мовця критичного застосування (АСРМКЗ). Зокрема, результати досліджень дозволяють рекомендувати нормовані за потужністю кепстральні ознаки як базові для оцінювання основного тону запропонованими методами, застосовувати в роботі методів пакети фреймів тривалістю 10 фреймів, будувати описані у методах нейромережі, використовуючи на прихованих шарах 1024 нейрони та використовувати 68 станів для опису основного тону. Результати проведених досліджень залежності якості розпізнавання мовців АСРМКЗ від рівня відношення сигнал/шум (ВСШ) у вхідному мовному матеріалі та оцінками основного тону, отриманими в результаті роботи створених методів, параметри яких оптимізовано з урахуванням результатів проведених досліджень, показали, що для всіх рівнів ВСШ найточніші оцінки основного тону дає ФПММ-метод, забезпечуючи імовірність правильного розпізнавання мовців АСРМКЗ на рівні 96…99 % для обраної тестувальної вибірки.	uk
dc.description.abstract	existing ones, uses a factorial hidden Markov model optimized with the junction tree algorithm for pitch trend estimation, generalizing information from pitch state detectors based on deep and recurrent neural networks, with which it is allowed precisely to predict a pitch trend using long-term information from speech frames packets, describe the dynamics of the pitch in the time domain and reduce the noise influence on the quality of pitch estimates. Methods for estimating pitch states based on deep and recurrent neural networks and a method for estimating the pitch trend based on the factorial hidden Markov model (FHMM) are developed. A study was carried out to optimize the parameters of the proposed methods for use as part of the automated speaker recognition system for critical use (ASRSCU). In particular, the results of the research make it possible to recommend power-normalized cepstral characteristics as the basis for estimating the pitch by the proposed methods, to apply frames packets with a duration of 10 frames, to use 1024 neurons in the hidden layers of neural networks that implement the proposed methods, and to use 68 states to describe the pitch. The results of the conducted researches of the dependence of the quality of speakers recognition by the ASRSCU from the level of the signal-to-noise ratio (SNR) in the input speech material and the pitch estimates obtained as a result of the work of the created methods, the parameters of which are optimized taking into account the results of the conducted studies, showed that for all levels of SNR the exact pitch estimate is provided by the FHMM method, showing the correct speakers recognition probability by the ASRSCU at a level of 96…99 % for the selected test sample.	en
dc.description.abstract	Предложен метод оценки трендов основного тона, который в отличие от существующих, использует оптимизированную с применением дерева переходов факториальную скрытую Марковскую модель для формирования трендов основного тона, обобщая информацию от детекторов состояний основного тона на основе глубокой и рекуррентной нейросетей, что позволило спрогнозировать оценки состояний основного тона, используя долговременную информацию из пакетов фреймов речевого сигнала, описать динамику основного тона во времени и уменьшить влияние шумов в речевом сигнале на качество оценок основного тона. Созданы методы оценки состояний основного тона на основе глубокой и рекуррентной нейросетей и метод оценки трендов основного тона на основе факториальной скрытой Марковской модели (ФСММ). Проведено исследование для оптимизации параметров предложенных методов для использования в составе автоматизированной системы распознавания диктора критического применения (АСРДКП). В частности, результаты исследований позволяют рекомендовать нормированные по мощности кепстральные признаки как базовые для оценки основного тона предложенными методами, применять при работе методов пакеты фреймов продолжительностью 10 фреймов, использовать 1024 нейрона в скрытых слоях нейросетей, которые реализуют предложенные методы, и использовать 68 состояний для описания основного тона. Результаты проведенных исследований зависимости качества распознавания дикторов АСРДКП от уровня отношение сигнал/шум (ОСШ) во входном речевом материале и оценками основного тона, полученными в результате работы предложенных методов, параметры которых оптимизированы с учетом результатов проведенных исследований, показали, что для всех уровней ОСШ самые точные оценки основного тона обеспечивает ФСММ-метод, показывая вероятность правильного распознавания дикторов АСРДКП на уровне 96…99 % для выбранной тестовой выборки.	ru
dc.language.iso	uk_UA	uk_UA
dc.publisher	ВНТУ	uk
dc.relation.ispartof	Вісник Вінницького політехнічного інституту. № 4 : 61-73.	uk
dc.relation.uri	https://visnyk.vntu.edu.ua/index.php/visnyk/article/view/2253
dc.subject	автоматизована система розпізнавання мовців критичного застосування	uk
dc.subject	основний тон	uk
dc.subject	глибока нейромережа	uk
dc.subject	рекурентна нейромережа	uk
dc.subject	факторіальна прихована Марковська модель	uk
dc.subject	автоматизированная система распознавания дикторов критического применения	ru
dc.subject	основной тон	ru
dc.subject	глубокая нейросеть	ru
dc.subject	рекуррентная нейросеть	ru
dc.subject	факториальная скрытая Марковская модель	ru
dc.subject	automated speaker recognition system for critical use	en
dc.subject	pitch	en
dc.subject	deep neural network	en
dc.subject	recurrent neural network	en
dc.subject	factorial hidden Markov model	en
dc.title	Оцінювання основного тону у автоматизованій системі розпізнавання мовця критичного застосування	uk
dc.title.alternative	Оценивание основного тона в автоматизированной системы распознавания диктора критического применения	ru
dc.title.alternative	Pitch Estimation for Automated Speaker Recognition System for Critical Use	en
dc.type	Article
dc.identifier.udc	681.327.12
dc.relation.references	B. S. Atal, “Automatic speaker recognition based on pitch contours,” J. Acoust. Soc. Amer., vol. 52, pp. 1687-1697, 1972.	en
dc.relation.references	D. J. Hermes, “Measurement of pitch by subharmonic summation,” J. Acoust. Soc. Amer., vol. 83, p. 257-264, 1988.	en
dc.relation.references	M. R. Schroeder, “Period histogram and product spectrum: New methods for fundamental-frequency measurement,” J. Acoust. Soc. Amer., vol. 43, pp. 829-834, 1968.	en
dc.relation.references	W. Chu, and A. Alwan, “SAFE: A statistical approach to F0 estimation under clean and noisy conditions,” IEEE Trans. Audio, Speech, Lang. Process., vol. 20, no. 3, pp. 933-944, 2012.	en
dc.relation.references	S. Gonzalez, and M. Brookes, “PEFAC-A pitch estimation algorithm robust to high levels of noise,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 22, no. 2, pp. 518-530, 2014.	en
dc.relation.references	D. Talkin, “A robust algorithm for pitch tracking (RAPT),” Speech Coding Synth., vol. 495, pp. 497-518, 1995.	en
dc.relation.references	A. De Cheveigne, and H. Kawahara, “YIN, a fundamental frequency estimator for speech and music,” J. Acoust. Soc. Amer., vol. 111, pp. 1917-1930, 2002.	en
dc.relation.references	M. Wu, D. L. Wang, and G. J. Brown, “A multipitch tracking algorithm for noisy speech,” IEEE Trans. Speech, Audio Process., vol. 11, no. 3, pp. 229-241, 2003.	en
dc.relation.references	Z. Jin, and D. L.Wang, “HMM-based multipitch tracking for noisy and reverberant speech,” IEEE Trans. Audio, Speech, Lang. Process., vol. 19, no. 5, pp. 1091-1102, 2011.	en
dc.relation.references	B. S. Lee, and D. P. W. Ellis, “Noise robust pitch tracking by subband autocorrelation classification,” in 13th Annual Conference of the International Speech Communication Association, 2012. doi 10.7916/D86M3H3S.	en
dc.relation.references	X. Glorot, A. Bordes, and Y. Bengio, “Deep sparse rectifier neural networks,” Proc. of AISTATS, pp. 315–323, 2011.	en
dc.relation.references	O. Vinyals, S. V. Ravuri, and D. Povey, “Revisiting recurrent neural networks for robust ASR,” Proc. ICASSP, pp. 4085–4088, 2012.	en
dc.relation.references	Z. Ghahramani, and M. Jordan, “Factorial hidden Markov models,” Mach. Learn. vol. 29, pp. 245-273, 1997.	en
dc.relation.references	M. Jordan, Z. Ghahramani, and T. Jaakkola, “An introduction to variational methods for graphical models,” Mach. Learn. vol. 37, pp. 183-233, 1999.	en
dc.relation.references	V. Zue, S. Seneff, and J. Glass, “Speech database development at MIT: TIMIT and beyond,” Speech Commun., vol. 9, no. 4, pp. 351-356, 1990.	en
dc.relation.references	A. Varga, and H. Steeneken, “Assessment for automatic speech recognition: II. NOISEX-92: A database and an experiment to study the effect of additive noise on speech recognition systems,” Speech Communication, vol. 12, no. 3, pp. 247-251, 1993.	en
dc.relation.references	L. Rabiner, M. Cheng, and A. Rosenberg, “A comparative performance study of several pitch detection algorithms,” IEEE Transactions on Acoustics, Speech and Signal Proc., vol. 24, no. 5, pp. 399-418, 1976.	en
dc.relation.references	R. H. Mohd, M. Zamil, and B. K. Mohd, “Speaker identification using MFCC coefficients,” in 3rd international conference on electrical and computer engineering (ICECE), 2004.	en
dc.relation.references	C. Kim, and R. M. Stern, “Power-normalized cepstral coefficients (PNCC) for robust speech recognition,” Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), vol. 24, pp. 1315-1329, 2012.	en
dc.relation.references	J. C. Wang, C. H. Lin, and E. T. Chen, “Spectral-temporal receptive fields and mfcc balanced feature extraction for noisy speech recognition,” Asia-Pacific Signal and Information Processing Association (APSIPA), 2014. doi 10.1007%2Fs11042-016-3335-0.	en
dc.relation.references	K. Han, and DeL. Wang, “Neural network based pitch tracking in very noisy speech,” IEEE/ACM Transactions on Audio, Speech and Language Proc., vol. 22, no. 12, pp. 2158-2168, 2014.	en
dc.relation.references	М. М. Биков, та В. В. Ковтун, «Оцінювання надійності автоматизованих систем розпізнавання мовців критичного застосування,» Вісник Вінницького політехнічного інституту, № 2, с. 70-76, 2017.	uk

Файли в цьому документі

Ім'я:: document (69).pdf
Розмір:: 553.4Kb
Формат:: PDF

Відкрити

Даний документ включений в наступну(і) колекцію(ї)

Вісник Вінницького політехнічного інституту. 2018. № 4 [14]

Показати скорочену інформацію