Підвищення шумостійкості автоматизованої системи розпізнавання мовця критичного застосування
Анотації
Актуальні системи розпізнавання мовців, де застосовується і-векторне/PLDA моделювання для опису фонограм, синтезують узагальнену PLDA модель з усередненими параметрами по всій базі фонограм без їх сегрегації за рівнем шумів. В результаті такі системи забезпечують прийнятний рівень надійності лише за наявності великої навчальної вибірки, як за кількістю, так і за тривалістю фонограм. Автори пропонують синтезувати окремі PLDA моделі для опису фонограм з детермінованими рівнями відношення сигнал/шум (ВСШ), в результаті чого фактори, які характеризують індивідуальність мовців, будуть зосереджені у наймінливіших зонах і-векторного простору. Статистичний аналіз параметрів таких зон мінливості для фонограм з детермінованим рівнем ВСШ дозволив визначити шумостійкі і інформативні для розпізнавання особи мовця фактори. Для розв’язання цієї задачі отримано аналітичний вираз для PLDA моделі, параметри якої визначаються виключно значеннями і-векторів, у яку введено показники, що описують рівні ВСШ. Також синтезовано цільові функції та етапи ЕМ-алгоритму навчання ВСШ-залежних PLDA сумішей, здійснено перевірку ефективності запропонованих моделей, порівнявши їх з результатами, які показують ВСШ-незалежні суміші для визначеної бази фонограм мовців. Актуальные системы распознавания диктора, в которых применяется i-векторное/PLDA моделирования для описания фонограмм, синтезируют обобщенную PLDA модель с усредненными параметрами по всей базе фонограмм без их сегрегации по уровню шумов. В результате такие системы обеспечивают приемлемый уровень надежности только при наличии большой обучающей выборки, как по количеству, так и по продолжительности фонограмм. Авторы предлагают синтезировать отдельные PLDA модели для описания фонограмм с детерминированными уровнями отношение сигнал/шум (ОСШ), в результате чего факторы, характеризующие индивидуальные особенности голоса диктора, будут сосредоточены в наиболее изменчивых областях i-векторного пространства. Статистический анализ параметров таких областей изменчивости для фонограмм с детерминированным уровнем ОСШ позволил определить шумоустойчивые и информативные для распознавания диктора факторы. Для решения этой задачи получено аналитическое выражение для PLDA модели, параметры которой определяются исключительно значениями i-векторов, в которую введены параметры, описывающие уровни ОСШ. Также синтезированы целевые функции и этапы ЕМ-алгоритма обучения ОСШ-зависимых PLDA смесей и осуществлена проверка эффективности предложенных моделей путем их сравнения с результатами, которые показывают ОСШ-независимые PLDA смеси для определенной базы фонограмм говорящих. The relevant speaker recognition systems in which i-vector/PLDA modeling is applied to the description of soundtracks synthesize the generalized PLDA model with average parameters on all soundtracks base without their segregation on the noise level. As a result such systems provide the acceptable level of reliability only in the presence of the large training selection, both by quantity, and on duration of soundtracks. Authors suggest to synthesize separate PLDA models for the description of soundtracks with the determined levels the relation signal / noise (RSN) therefore factors which characterize specific features of a speaker’s voice, will be concentrated in the most changeable areas of i-vector space. It is assumed that statistical analysis of the parameters of such variability regions for phonograms with a signal-to-noise ratio determinants will determine the factors that are stable to the noise level in the signal and informative for the speaker's identity recognition. The statistical analysis of parameters of such areas of variability for soundtracks with the determined RSN level allowed to define noise resistant and informative for speaker recognition factors. For the solution of this task analytical expression for PLDA model which parameters are defined only by values of i-vectors, into which it is entered the parameters describing the RSN levels is received. Criterion functions and stages EM-algorithm of training RSN depended PLDA mixture are also synthesized and check of efficiency of the offered models by their comparison with results which show RSN independed PLDA mixture for a certain base of the speaker’s soundtracks is carried out. For complex testing of the proposed theoretical results, the authors formed two test samples of phonograms that differed in the way of making noise into a signal. Experimental results show that the RSN depended PLDA model allows for better results than the RSN independed PLDA model for almost all test data variants, when phonograms from the first set were used for training models. However, when the training of models occurred according to data from the second set, the situation turns out to be the opposite. This can be explained by the fact that the use of phonograms with the three levels of the RSN the formation of the first set of training data provides greater informativity than the second way of obtaining training data.
URI:
http://ir.lib.vntu.edu.ua//handle/123456789/24985