要約
我々は、メモリ認識マルチスピーカー埋め込み(MA-MSE)とシーケンスツーシーケンスの長所を統合した、シーケンスツーシーケンスアーキテクチャ(NSD-MS2S)を備えたメモリ認識マルチスピーカー埋め込みを使用した新しいニューラルスピーカーダイアライゼーションシステムを提案します。
-sequence (Seq2Seq) アーキテクチャにより、効率とパフォーマンスの両方が向上します。
次に、入力特徴融合を組み込むことでデコードのメモリ占有をさらに減らし、マルチヘッド アテンション メカニズムを採用してさまざまなレベルで特徴をキャプチャします。
NSD-MS2S は、CHiME-7 EVAL セットで 15.9% のマクロダイアライゼーションエラー率 (DER) を達成しました。これは、公式のベースライン システムと比べて 49% の相対的な改善を意味しており、NSD-MS2S が最高のパフォーマンスを達成するための重要なテクニックです。
CHiME-7 DASR Challengeのメイントラック。
さらに、MA-MSE モジュールにディープ インタラクティブ モジュール (DIM) を導入して、よりクリーンで識別力の高いマルチスピーカーの埋め込みをより適切に取得できるようにし、現在のモデルが CHiME-7 DASR チャレンジで使用したシステムよりも優れたパフォーマンスを発揮できるようにします。
私たちのコードは https://github.com/liyunlongaaa/NSD-MS2S で入手できます。
要約(オリジナル)
We propose a novel neural speaker diarization system using memory-aware multi-speaker embedding with sequence-to-sequence architecture (NSD-MS2S), which integrates the strengths of memory-aware multi-speaker embedding (MA-MSE) and sequence-to-sequence (Seq2Seq) architecture, leading to improvement in both efficiency and performance. Next, we further decrease the memory occupation of decoding by incorporating input features fusion and then employ a multi-head attention mechanism to capture features at different levels. NSD-MS2S achieved a macro diarization error rate (DER) of 15.9% on the CHiME-7 EVAL set, which signifies a relative improvement of 49% over the official baseline system, and is the key technique for us to achieve the best performance for the main track of CHiME-7 DASR Challenge. Additionally, we introduce a deep interactive module (DIM) in MA-MSE module to better retrieve a cleaner and more discriminative multi-speaker embedding, enabling the current model to outperform the system we used in the CHiME-7 DASR Challenge. Our code will be available at https://github.com/liyunlongaaa/NSD-MS2S.
arxiv情報
著者 | Gaobin Yang,Maokui He,Shutong Niu,Ruoyu Wang,Yanyan Yue,Shuangqing Qian,Shilong Wu,Jun Du,Chin-Hui Lee |
発行日 | 2023-12-26 07:33:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google