Disentangling Voice and Content with Self-Supervision for Speaker Recognition

要約

話者認識の場合、話者の特徴​​と内容が混在しているため、音声から正確な話者表現を抽出することは困難です。
この論文では、話者の特徴​​と音声の内容の変動性を同時にモデル化する、もつれを解くフレームワークを提案します。
これは 3 つのガウス推論層を使用して実現され、各層は個別の音声成分を抽出する学習可能な遷移モデルで構成されます。
特に、強化された遷移モデルは、複雑な音声ダイナミクスをモデル化するために特別に設計されています。
また、話者 ID 以外のラベルを使用せずにコンテンツを動的に解きほぐす自己監視手法も提案します。
提案されたフレームワークの有効性は、VoxCeleb と SITW データセットで実施された実験によって検証され、EER と minDCF がそれぞれ平均 9.56% と 8.24% 減少しました。
追加のモデルトレーニングやデータは特に必要ないため、実用的にも簡単に適用できます。

要約(オリジナル)

For speaker recognition, it is difficult to extract an accurate speaker representation from speech because of its mixture of speaker traits and content. This paper proposes a disentanglement framework that simultaneously models speaker traits and content variability in speech. It is realized with the use of three Gaussian inference layers, each consisting of a learnable transition model that extracts distinct speech components. Notably, a strengthened transition model is specifically designed to model complex speech dynamics. We also propose a self-supervision method to dynamically disentangle content without the use of labels other than speaker identities. The efficacy of the proposed framework is validated via experiments conducted on the VoxCeleb and SITW datasets with 9.56% and 8.24% average reductions in EER and minDCF, respectively. Since neither additional model training nor data is specifically needed, it is easily applicable in practical use.

arxiv情報

著者 Tianchi Liu,Kong Aik Lee,Qiongqiong Wang,Haizhou Li
発行日 2023-11-01 16:27:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, eess.AS パーマリンク