Exploring Speaker Diarization with Mixture of Experts

要約

このホワイトペーパーでは、メモリ対応のマルチスピーカー埋め込みを使用して、シーケンスからアウェアのマルチスピーカー埋め込みモジュールをシーケンスツーシーケンスアーキテクチャと統合するメモリ認識マルチスピーカー埋め込みを使用して、新しいニューラルスピーカーダイアリゼーションシステムを提案します。
このシステムは、メモリモジュールを活用してスピーカーの埋め込みを強化し、SEQ2SEQフレームワークを採用して、音響機能をスピーカーラベルに効率的にマッピングします。
さらに、スピーカーダイアリゼーションへの専門家の混合物の適用を調査し、モデルバイアスをさらに軽減し、パフォーマンスを向上させるために、専門家(SS-MOE)モジュールの共有とソフトな混合物を導入します。
SS-MOEを組み込むと、拡張モデルNSD-MS2S-SSMOEにつながります。
Chime-6、Dipco、Mixer 6、Dihard-III評価セットを含む複数の複雑な音響データセットの実験は、堅牢性と一般化の有意義な改善を示しています。
提案された方法は、最先端の結果を達成し、挑戦的な現実世界のシナリオにおける有効性を紹介します。

要約(オリジナル)

In this paper, we propose a novel neural speaker diarization system using memory-aware multi-speaker embedding with sequence-to-sequence architecture (NSD-MS2S), which integrates a memory-aware multi-speaker embedding module with a sequence-to-sequence architecture. The system leverages a memory module to enhance speaker embeddings and employs a Seq2Seq framework to efficiently map acoustic features to speaker labels. Additionally, we explore the application of mixture of experts in speaker diarization, and introduce a Shared and Soft Mixture of Experts (SS-MoE) module to further mitigate model bias and enhance performance. Incorporating SS-MoE leads to the extended model NSD-MS2S-SSMoE. Experiments on multiple complex acoustic datasets, including CHiME-6, DiPCo, Mixer 6 and DIHARD-III evaluation sets, demonstrate meaningful improvements in robustness and generalization. The proposed methods achieve state-of-the-art results, showcasing their effectiveness in challenging real-world scenarios.

arxiv情報

著者 Gaobin Yang,Maokui He,Shutong Niu,Ruoyu Wang,Hang Chen,Jun Du
発行日 2025-06-17 17:42:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD パーマリンク