dc.contributor.author | Ковтун, В. В. | uk |
dc.date.accessioned | 2019-05-29T08:51:03Z | |
dc.date.available | 2019-05-29T08:51:03Z | |
dc.date.issued | 2018 | |
dc.identifier.citation | Ковтун В. В. Оцінювання основного тону у автоматизованій системі розпізнавання мовця критичного застосування [Текст] / В. В. Ковтун // Вісник Вінницького політехнічного інституту. – 2018. – № 4. – С. 61-73. | uk |
dc.identifier.issn | 1997–9266 | |
dc.identifier.issn | 1997–9274 | |
dc.identifier.uri | http://ir.lib.vntu.edu.ua//handle/123456789/25165 | |
dc.description.abstract | Запропоновано метод оцінювання трендів основного тону, який, на відміну від існуючих, використовує оптимізовану із застосуванням дерева переходів факторіальну приховану Марковську модель для формування трендів основного тону узагальнюючи при цьому інформацію від детекторів станів основного тону, на основі глибокої та рекурентної нейромереж, що дозволило спрогнозувати оцінки станів основного тону, використовуючи довготривалу інформацію з пакетів фреймів мовного сигналу, описати часову динаміку основного тону та зменшити вплив шумів у мовному сигналі на якість оцінок основного тону. Створено методи оцінювання станів основного тону на основі глибокої та рекурентної нейромереж та метод оцінювання трендів основного тону на основі факторіальної прихованої Марковської моделі (ФПММ). Проведено дослідження для оптимізації параметрів запропонованих методів для використання у складі автоматизованої системи розпізнавання мовця критичного застосування (АСРМКЗ). Зокрема, результати досліджень дозволяють рекомендувати нормовані за потужністю кепстральні ознаки як базові для оцінювання основного тону запропонованими методами, застосовувати в роботі методів пакети фреймів тривалістю 10 фреймів, будувати описані у методах нейромережі, використовуючи на прихованих шарах 1024 нейрони та використовувати 68 станів для опису основного тону. Результати проведених досліджень залежності якості розпізнавання мовців АСРМКЗ від рівня відношення сигнал/шум (ВСШ) у вхідному мовному матеріалі та оцінками основного тону, отриманими в результаті роботи створених методів, параметри яких оптимізовано з урахуванням результатів проведених досліджень, показали, що для всіх рівнів ВСШ найточніші оцінки основного тону дає ФПММ-метод, забезпечуючи імовірність правильного розпізнавання мовців АСРМКЗ на рівні 96…99 % для обраної тестувальної вибірки. | uk |
dc.description.abstract | existing ones, uses a factorial hidden Markov model optimized with the junction tree algorithm for pitch trend estimation, generalizing information from pitch state detectors based on deep and recurrent neural networks, with which it is allowed precisely to predict a pitch trend using long-term information from speech frames packets, describe the dynamics of the pitch in the time domain and reduce the noise influence on the quality of pitch estimates. Methods for estimating pitch states based on deep and recurrent neural networks and a method for estimating the pitch trend based on the factorial hidden Markov model (FHMM) are developed. A study was carried out to optimize the parameters of the proposed methods for use as part of the automated speaker recognition system for critical use (ASRSCU). In particular, the results of the research make it possible to recommend power-normalized cepstral characteristics as the basis for estimating the pitch by the proposed methods, to apply frames packets with a duration of 10 frames, to use 1024 neurons in the hidden layers of neural networks that implement the proposed methods, and to use 68 states to describe the pitch. The results of the conducted researches of the dependence of the quality of speakers recognition by the ASRSCU from the level of the signal-to-noise ratio (SNR) in the input speech material and the pitch estimates obtained as a result of the work of the created methods, the parameters of which are optimized taking into account the results of the conducted studies, showed that for all levels of SNR the exact pitch estimate is provided by the FHMM method, showing the correct speakers recognition probability by the ASRSCU at a level of 96…99 % for the selected test sample. | en |
dc.description.abstract | Предложен метод оценки трендов основного тона, который в отличие от существующих, использует оптимизированную с применением дерева переходов факториальную скрытую Марковскую модель для формирования трендов основного тона, обобщая информацию от детекторов состояний основного тона на основе глубокой и рекуррентной нейросетей, что позволило спрогнозировать оценки состояний основного тона, используя долговременную информацию из пакетов фреймов речевого сигнала, описать динамику основного тона во времени и уменьшить влияние шумов в речевом сигнале на качество оценок основного тона. Созданы методы оценки состояний основного тона на основе глубокой и рекуррентной нейросетей и метод оценки трендов основного тона на основе факториальной скрытой Марковской модели (ФСММ). Проведено исследование для оптимизации параметров предложенных методов для использования в составе автоматизированной системы распознавания диктора критического применения (АСРДКП). В частности, результаты исследований позволяют рекомендовать нормированные по мощности кепстральные признаки как базовые для оценки основного тона предложенными методами, применять при работе методов пакеты фреймов продолжительностью 10 фреймов, использовать 1024 нейрона в скрытых слоях нейросетей, которые реализуют предложенные методы, и использовать 68 состояний для описания основного тона. Результаты проведенных исследований зависимости качества распознавания дикторов АСРДКП от уровня отношение сигнал/шум (ОСШ) во входном речевом материале и оценками основного тона, полученными в результате работы предложенных методов, параметры которых оптимизированы с учетом результатов проведенных исследований, показали, что для всех уровней ОСШ самые точные оценки основного тона обеспечивает ФСММ-метод, показывая вероятность правильного распознавания дикторов АСРДКП на уровне 96…99 % для выбранной тестовой выборки. | ru |
dc.language.iso | uk_UA | uk_UA |
dc.publisher | ВНТУ | uk |
dc.relation.ispartof | Вісник Вінницького політехнічного інституту. № 4 : 61-73. | uk |
dc.relation.uri | https://visnyk.vntu.edu.ua/index.php/visnyk/article/view/2253 | |
dc.subject | автоматизована система розпізнавання мовців критичного застосування | uk |
dc.subject | основний тон | uk |
dc.subject | глибока нейромережа | uk |
dc.subject | рекурентна нейромережа | uk |
dc.subject | факторіальна прихована Марковська модель | uk |
dc.subject | автоматизированная система распознавания дикторов критического применения | ru |
dc.subject | основной тон | ru |
dc.subject | глубокая нейросеть | ru |
dc.subject | рекуррентная нейросеть | ru |
dc.subject | факториальная скрытая Марковская модель | ru |
dc.subject | automated speaker recognition system for critical use | en |
dc.subject | pitch | en |
dc.subject | deep neural network | en |
dc.subject | recurrent neural network | en |
dc.subject | factorial hidden Markov model | en |
dc.title | Оцінювання основного тону у автоматизованій системі розпізнавання мовця критичного застосування | uk |
dc.title.alternative | Оценивание основного тона в автоматизированной системы распознавания диктора критического применения | ru |
dc.title.alternative | Pitch Estimation for Automated Speaker Recognition System for Critical Use | en |
dc.type | Article | |
dc.identifier.udc | 681.327.12 | |
dc.relation.references | B. S. Atal, “Automatic speaker recognition based on pitch contours,” J. Acoust. Soc. Amer., vol. 52, pp. 1687-1697, 1972. | en |
dc.relation.references | D. J. Hermes, “Measurement of pitch by subharmonic summation,” J. Acoust. Soc. Amer., vol. 83, p. 257-264, 1988. | en |
dc.relation.references | M. R. Schroeder, “Period histogram and product spectrum: New methods for fundamental-frequency measurement,” J. Acoust. Soc. Amer., vol. 43, pp. 829-834, 1968. | en |
dc.relation.references | W. Chu, and A. Alwan, “SAFE: A statistical approach to F0 estimation under clean and noisy conditions,” IEEE Trans. Audio, Speech, Lang. Process., vol. 20, no. 3, pp. 933-944, 2012. | en |
dc.relation.references | S. Gonzalez, and M. Brookes, “PEFAC-A pitch estimation algorithm robust to high levels of noise,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 22, no. 2, pp. 518-530, 2014. | en |
dc.relation.references | D. Talkin, “A robust algorithm for pitch tracking (RAPT),” Speech Coding Synth., vol. 495, pp. 497-518, 1995. | en |
dc.relation.references | A. De Cheveigne, and H. Kawahara, “YIN, a fundamental frequency estimator for speech and music,” J. Acoust. Soc. Amer., vol. 111, pp. 1917-1930, 2002. | en |
dc.relation.references | M. Wu, D. L. Wang, and G. J. Brown, “A multipitch tracking algorithm for noisy speech,” IEEE Trans. Speech, Audio Process., vol. 11, no. 3, pp. 229-241, 2003. | en |
dc.relation.references | Z. Jin, and D. L.Wang, “HMM-based multipitch tracking for noisy and reverberant speech,” IEEE Trans. Audio, Speech, Lang. Process., vol. 19, no. 5, pp. 1091-1102, 2011. | en |
dc.relation.references | B. S. Lee, and D. P. W. Ellis, “Noise robust pitch tracking by subband autocorrelation classification,” in 13th Annual Conference of the International Speech Communication Association, 2012. doi 10.7916/D86M3H3S. | en |
dc.relation.references | X. Glorot, A. Bordes, and Y. Bengio, “Deep sparse rectifier neural networks,” Proc. of AISTATS, pp. 315–323, 2011. | en |
dc.relation.references | O. Vinyals, S. V. Ravuri, and D. Povey, “Revisiting recurrent neural networks for robust ASR,” Proc. ICASSP, pp. 4085–4088, 2012. | en |
dc.relation.references | Z. Ghahramani, and M. Jordan, “Factorial hidden Markov models,” Mach. Learn. vol. 29, pp. 245-273, 1997. | en |
dc.relation.references | M. Jordan, Z. Ghahramani, and T. Jaakkola, “An introduction to variational methods for graphical models,” Mach. Learn. vol. 37, pp. 183-233, 1999. | en |
dc.relation.references | V. Zue, S. Seneff, and J. Glass, “Speech database development at MIT: TIMIT and beyond,” Speech Commun., vol. 9, no. 4, pp. 351-356, 1990. | en |
dc.relation.references | A. Varga, and H. Steeneken, “Assessment for automatic speech recognition: II. NOISEX-92: A database and an experiment to study the effect of additive noise on speech recognition systems,” Speech Communication, vol. 12, no. 3, pp. 247-251, 1993. | en |
dc.relation.references | L. Rabiner, M. Cheng, and A. Rosenberg, “A comparative performance study of several pitch detection algorithms,” IEEE Transactions on Acoustics, Speech and Signal Proc., vol. 24, no. 5, pp. 399-418, 1976. | en |
dc.relation.references | R. H. Mohd, M. Zamil, and B. K. Mohd, “Speaker identification using MFCC coefficients,” in 3rd international conference on electrical and computer engineering (ICECE), 2004. | en |
dc.relation.references | C. Kim, and R. M. Stern, “Power-normalized cepstral coefficients (PNCC) for robust speech recognition,” Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), vol. 24, pp. 1315-1329, 2012. | en |
dc.relation.references | J. C. Wang, C. H. Lin, and E. T. Chen, “Spectral-temporal receptive fields and mfcc balanced feature extraction for noisy speech recognition,” Asia-Pacific Signal and Information Processing Association (APSIPA), 2014. doi 10.1007%2Fs11042-016-3335-0. | en |
dc.relation.references | K. Han, and DeL. Wang, “Neural network based pitch tracking in very noisy speech,” IEEE/ACM Transactions on Audio, Speech and Language Proc., vol. 22, no. 12, pp. 2158-2168, 2014. | en |
dc.relation.references | М. М. Биков, та В. В. Ковтун, «Оцінювання надійності автоматизованих систем розпізнавання мовців критичного застосування,» Вісник Вінницького політехнічного інституту, № 2, с. 70-76, 2017. | uk |