Виявлення голосової активності на основі кута нахилу апроксимувальної прямої власних значень
Abstract
Розглянуто метод виявлення голосової активності (VAD — Voice Activity Detection) з метою підвищення ефективності методів подавлення шуму в умовах низького співвідношення сигнал-шум. Наявність акустичних перешкод обмежує використання VAD та погіршує їхню продуктивність. Особливу увагу в роботі приділено методам VAD, що працюють в інтересах систем подавлення шуму, для оцінки шуму в зашумленому мовному повідомленні. Висока ефективність підпросторових методів подавлення шуму, основаних на перетворенні Корунена–Лоева, спонукала пошук простого та надійного VAD. Запропонований у статті метод виявлення голосової активності не вимагає додаткових перетворень та обчислень зашумленого мовлення та полегшує виявлення голосової активності в підпросторових методах подавлення шуму. Як ознака класифікації мовних кадрів під час детектування голосової активності в запропонованому VAD використовується кут нахилу апроксимувальної прямої власних значень. Особливістю реалізації цього підходу є коригований спектр власних значень. За рахунок віднімання з власних значень коваріаційної матриці вхідних даних дисперсії шуму, досягається зменшення енергії шуму в спостереженні. Використання покращеної оцінки дисперсії шуму враховує наявність адитивних компонентів шуму в підпросторі сигналу. Як критерій прийняття рішення в роботі пропонується використання адаптивного порогу, на основі вхідного відношення сигнал-шум. Проведений порівняльний аналіз роботи запропонованого VAD в умовах впливу кольорових шумів в порівнянні з VAD кодеку G.729. Реалізація моделей VAD проводилась в MATLAB та оцінено з використанням об’єктивних параметрів оцінки помилкових рішень в умовах впливу шуму. Подані результати оделювання, вказують на ефективність запропонованого методу за низьких значень відношення сигнал-шум (до 0 дБ). Запропонований метод VAD збільшує точність виявлення мовлення та зменшує кількість помилкових рішень. Проведене дослідження може бути використане для вдосконалення
систем подавлення шуму. The article discusses a method for detecting voice activity with the aim of improving the effectiveness of noise reduction methods in the conditions of low signal-to-noise ratio. The presence of acoustic disturbances limits the use of VAD (Voice
Activity Detection) and degrades the performance. Special attention in the study is given to VAD methods that work in the
interest of noise reduction systems, for estimating noise in noisy speech signals. The high efficiency of subspace-based
noise reduction methods, based on the Karhunen–Loève transform, has prompted the search for a simple and reliable VAD
for them. The method proposed in the article for voice activity detection does not require additional transformations of the
noisy speech and facilitates the detection of voice activity in subspace-based noise reduction methods.
The proposed VAD utilizes the slope angle of the approximating line of the adjusted eigenvalues as the classification
feature for speech frame classification during voice activity detection. The implementation of this approach involves an adjustable eigenvalue spectrum. By subtracting the noise variance from the eigenvalues of the input data covariance matrix,
the reduction of noise energy in the observation is achieved. The use of the improved estimation of the noise variance takes
into account the presence of additive noise components in the signal space. An adaptive threshold based on the input signal-to-noise ratio is proposed as the decision criterion in the study. A comparative analysis of the performance of the proposed VAD under the influence of color noise was conducted compared to the G.729 VAD codec. The implementation of the
VAD models was done in MATLAB and evaluated using objective parameters for assessing erroneous decisions in noisy
conditions. The presented simulation results indicate the effectiveness of the proposed method at low signal-to-noise ratios
(down to 0 dB). The proposed method for voice activity detection increases speech detection accuracy and reduces the
number of VAD erroneous decisions. The conducted research can be used to improve noise suppression systems.
URI:
https://ir.lib.vntu.edu.ua//handle/123456789/42815