Enhancement of a Text-Independent Speaker Verification System by using Feature Combination and Parallel-Structure Classifiers

要約

話者検証 (SV) システムには、主に特徴抽出と分類という 2 つの個別の段階が含まれます。
このペーパーでは、騒音下での話者検証システムのパフォーマンスを向上させることを目的として、これら 2 つのモジュールについて検討します。
一方で、最も適切な音響特徴の選択は、堅牢な話者検証を実行するための重要な要素です。
提案されたシステムで使用される音響パラメータは、メル周波数ケプストラム係数 (MFCC)、その一次および二次導関数 (デルタおよびデルタデルタ)、バーク周波数ケプストラム係数 (BFCC)、知覚線形予測 (PLP)、および相対スペクトル変換です。
– 知覚線形予測 (RASTA-PLP)。
このペーパーでは、前述の機能のさまざまな組み合わせの完全な比較について説明します。
一方、従来のサポート ベクター マシン (SVM) 分類器の主な弱点は、データ ポイント間の距離を計算するために汎用の従来のカーネル関数を使用していることです。
ただし、SVM のカーネル機能はパフォーマンスに大きな影響を与えます。
この研究では、線形カーネルとロジスティック回帰 (LR) 分類器を備えたガウス放射基底関数 (RBF) カーネルという、異なるカーネル関数を備えた 2 つの SVM ベースの分類器の組み合わせを提案します。
この組み合わせは、最終決定を下すためのさまざまな投票ルールが考慮される並列構造アプローチによって実行されます。
結果は、きれいな音声またはノイズの存在下で組み合わせ分類器と組み合わせた特徴を使用することによって、SV システムのパフォーマンスの大幅な向上が達成されることを示しています。
最後に、ノイズの多い環境でシステムをさらに強化するために、前処理段階としてマルチバンド ノイズ除去技術を組み込むことが提案されています。

要約(オリジナル)

Speaker Verification (SV) systems involve mainly two individual stages: feature extraction and classification. In this paper, we explore these two modules with the aim of improving the performance of a speaker verification system under noisy conditions. On the one hand, the choice of the most appropriate acoustic features is a crucial factor for performing robust speaker verification. The acoustic parameters used in the proposed system are: Mel Frequency Cepstral Coefficients (MFCC), their first and second derivatives (Deltas and Delta- Deltas), Bark Frequency Cepstral Coefficients (BFCC), Perceptual Linear Predictive (PLP), and Relative Spectral Transform – Perceptual Linear Predictive (RASTA-PLP). In this paper, a complete comparison of different combinations of the previous features is discussed. On the other hand, the major weakness of a conventional Support Vector Machine (SVM) classifier is the use of generic traditional kernel functions to compute the distances among data points. However, the kernel function of an SVM has great influence on its performance. In this work, we propose the combination of two SVM-based classifiers with different kernel functions: Linear kernel and Gaussian Radial Basis Function (RBF) kernel with a Logistic Regression (LR) classifier. The combination is carried out by means of a parallel structure approach, in which different voting rules to take the final decision are considered. Results show that significant improvement in the performance of the SV system is achieved by using the combined features with the combined classifiers either with clean speech or in the presence of noise. Finally, to enhance the system more in noisy environments, the inclusion of the multiband noise removal technique as a preprocessing stage is proposed.

arxiv情報

著者 Kerlos Atia Abdalmalak,Ascensión Gallardo-Antol’in
発行日 2024-01-26 17:19:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク