GMM-ResNext: Combining Generative and Discriminative Models for Speaker Verification

要約

ディープラーニングの発展に伴い、話者検証において多くの異なるネットワークアーキテクチャが研究されてきた。しかし、ほとんどのネットワークアーキテクチャは単一のディープラーニングアーキテクチャに依存しており、異なるアーキテクチャを組み合わせたハイブリッドネットワークはASVタスクにおいてほとんど研究されていない。本稿では、話者検証のためのGMM-ResNextモデルを提案する。従来のGMMは、全てのガウス成分にわたる各フレーム特徴のスコア分布を考慮せず、隣接する音声フレーム間の関係を無視している。そこで、生の音響特徴量に基づいて対数ガウス確率特徴量を抽出し、ResNextベースのネットワークをバックボーンとして話者埋め込みを抽出する。GMM-ResNextは、生成モデルと識別モデルを組み合わせることで、ディープラーニングモデルの汎化能力を向上させ、モデルパラメータに意味のある事前分布をより簡単に指定できるようにする。また、2つの性別関連GMMに基づく2パスGMM-ResNextモデルも提案されている。実験結果は、提案GMM-ResNextが、VoxCeleb1-Oテストセットにおいて、ResNet34とECAPA-TDNNと比較して、EERで48.1%と11.3%の相対的な改善を達成することを示している。

要約(オリジナル)

With the development of deep learning, many different network architectures have been explored in speaker verification. However, most network architectures rely on a single deep learning architecture, and hybrid networks combining different architectures have been little studied in ASV tasks. In this paper, we propose the GMM-ResNext model for speaker verification. Conventional GMM does not consider the score distribution of each frame feature over all Gaussian components and ignores the relationship between neighboring speech frames. So, we extract the log Gaussian probability features based on the raw acoustic features and use ResNext-based network as the backbone to extract the speaker embedding. GMM-ResNext combines Generative and Discriminative Models to improve the generalization ability of deep learning models and allows one to more easily specify meaningful priors on model parameters. A two-path GMM-ResNext model based on two gender-related GMMs has also been proposed. The Experimental results show that the proposed GMM-ResNext achieves relative improvements of 48.1\% and 11.3\% in EER compared with ResNet34 and ECAPA-TDNN on VoxCeleb1-O test set.

arxiv情報

著者 Hui Yan,Zhenchun Lei,Changhong Liu,Yong Zhou
発行日 2024-07-03 14:14:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.HC, cs.SD, eess.AS パーマリンク