Towards Word-Level End-to-End Neural Speaker Diarization with Auxiliary Network

要約

標準的な話者ダイアリゼーションは「誰がいつ話したか」という質問に答えようとしますが、実際の関連アプリケーションのほとんどは、「誰が何を話したか」を判断することに関心があります。
従来のモジュール化されたアプローチであっても、より最近のエンドツーエンド ニューラル ダイアライゼーション (EEND) であっても、話者ラベルを認識された単語に関連付けるには、追加の自動音声認識 (ASR) モデルとオーケストレーション アルゴリズムが必要です。
この論文では、補助ネットワークを使用した単語レベルのエンドツーエンド ニューラル ダイアライゼーション (WEEND) を提案します。これは、同じニューラル アーキテクチャでエンドツーエンドの ASR と話者ダイアライゼーションを実行するマルチタスク学習アルゴリズムです。
つまり、音声の認識中に、認識された単語ごとに話者ラベルが同時に予測されます。
実験結果は、WEEND が 2 人の話者のすべての短編シナリオでターンベースのダイアライゼーション ベースライン システムよりも優れたパフォーマンスを示し、5 分の音声長に一般化する機能を備えていることを示しています。
3 人以上の話者による会話はより困難ですが、十分なドメイン内トレーニング データがあれば、WEEND は高品質のダイアライズされたテキストを提供できる可能性があることがわかりました。

要約(オリジナル)

While standard speaker diarization attempts to answer the question ‘who spoken when’, most of relevant applications in reality are more interested in determining ‘who spoken what’. Whether it is the conventional modularized approach or the more recent end-to-end neural diarization (EEND), an additional automatic speech recognition (ASR) model and an orchestration algorithm are required to associate the speaker labels with recognized words. In this paper, we propose Word-level End-to-End Neural Diarization (WEEND) with auxiliary network, a multi-task learning algorithm that performs end-to-end ASR and speaker diarization in the same neural architecture. That is, while speech is being recognized, speaker labels are predicted simultaneously for each recognized word. Experimental results demonstrate that WEEND outperforms the turn-based diarization baseline system on all 2-speaker short-form scenarios and has the capability to generalize to audio lengths of 5 minutes. Although 3+speaker conversations are harder, we find that with enough in-domain training data, WEEND has the potential to deliver high quality diarized text.

arxiv情報

著者 Yiling Huang,Weiran Wang,Guanlong Zhao,Hank Liao,Wei Xia,Quan Wang
発行日 2023-09-15 15:48:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS, stat.ML パーマリンク