DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification

要約

データ拡張は、ディープ ニューラル ネットワーク (DNN) モデルの汎化能力と堅牢性に不可欠です。
話者検証のための既存の拡張方法は生の信号を操作しますが、時間がかかり、拡張されたサンプルには多様性がありません。
この論文では、話者検証のための新しい難易度認識セマンティック拡張 (DASA) アプローチを紹介します。このアプローチは、無視できる追加のコンピューティング コストで話者埋め込み空間で多様なトレーニング サンプルを生成できます。
まず、話者ごとの共分散行列から得られる意味方向に沿って話者の埋め込みを摂動させることにより、トレーニング サンプルを強化します。
次に、トレーニング中にロバストな話者埋め込みから正確な共分散行列が推定されるため、最適な話者埋め込みを取得するために困難を伴う加法マージン ソフトマックス (DAAM-Softmax) を導入します。
最後に、拡張サンプルの数が無限大になると仮定し、DASA で予想される損失の閉じた形式の上限を導き出します。これにより、互換性と効率が達成されます。
広範な実験により、提案されたアプローチが顕著なパフォーマンスの向上を達成できることが実証されました。
最良の結果では、CN-Celeb 評価セットで EER メトリックの 14.6% の相対的な削減が達成されます。

要約(オリジナル)

Data augmentation is vital to the generalization ability and robustness of deep neural networks (DNNs) models. Existing augmentation methods for speaker verification manipulate the raw signal, which are time-consuming and the augmented samples lack diversity. In this paper, we present a novel difficulty-aware semantic augmentation (DASA) approach for speaker verification, which can generate diversified training samples in speaker embedding space with negligible extra computing cost. Firstly, we augment training samples by perturbing speaker embeddings along semantic directions, which are obtained from speaker-wise covariance matrices. Secondly, accurate covariance matrices are estimated from robust speaker embeddings during training, so we introduce difficultyaware additive margin softmax (DAAM-Softmax) to obtain optimal speaker embeddings. Finally, we assume the number of augmented samples goes to infinity and derive a closed-form upper bound of the expected loss with DASA, which achieves compatibility and efficiency. Extensive experiments demonstrate the proposed approach can achieve a remarkable performance improvement. The best result achieves a 14.6% relative reduction in EER metric on CN-Celeb evaluation set.

arxiv情報

著者 Yuanyuan Wang,Yang Zhang,Zhiyong Wu,Zhihan Yang,Tao Wei,Kun Zou,Helen Meng
発行日 2023-10-18 17:07:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, eess.AS パーマリンク