要約
多言語設定でのスピーカーの識別は、特に従来のモデルが主に英語のデータでトレーニングされている場合、ユニークな課題を提示します。
このホワイトペーパーでは、WSI(ささやきスピーカーの識別)を提案します。これは、オンラインのハードトリップレットマイニングと自動監督された温度温度補給式腸喪失喪失をレバレッジする共同損失最適化戦略を介して、広範な多言語データで事前に訓練されたささやきの自動音声認識モデルのエンコーダを再利用するフレームワークです。
ささやき言語に依存しない音響表現を活用することにより、私たちのアプローチは、多様な言語と記録条件でスピーカーを効果的に区別します。
Voxtube(多言語)、JVS(日本)、Callhome(ドイツ語、スペイン語、中国語、日本語)、VoxConverse(英語)を含む複数のコーパスに関する広範な評価は、WSIが常に最先端のベースラインを上回ることを示しています。
これらの結果は、多言語の事前訓練を受けたASRエンコーダーと共同損失の最適化が、非英語言語のスピーカー識別パフォーマンスを大幅に改善するという仮説を検証します。
要約(オリジナル)
Speaker identification in multilingual settings presents unique challenges, particularly when conventional models are predominantly trained on English data. In this paper, we propose WSI (Whisper Speaker Identification), a framework that repurposes the encoder of the Whisper automatic speech recognition model pre trained on extensive multilingual data to generate robust speaker embeddings via a joint loss optimization strategy that leverages online hard triplet mining and self supervised Normalized Temperature-scaled Cross Entropy loss. By capitalizing on Whisper language-agnostic acoustic representations, our approach effectively distinguishes speakers across diverse languages and recording conditions. Extensive evaluations on multiple corpora, including VoxTube (multilingual), JVS (Japanese), CallHome (German, Spanish, Chinese, and Japanese), and Voxconverse (English), demonstrate that WSI consistently outperforms state-of-the-art baselines, namely Pyannote Embedding, ECAPA TDNN, and Xvector, in terms of lower equal error rates and higher AUC scores. These results validate our hypothesis that a multilingual pre-trained ASR encoder, combined with joint loss optimization, substantially improves speaker identification performance in non-English languages.
arxiv情報
著者 | Jakaria Islam Emon,Md Abu Salek,Kazi Tamanna Alam |
発行日 | 2025-03-13 15:11:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google