Neural Diarization with Non-autoregressive Intermediate Attractors

要約

エンコーダ-デコーダベースのアトラクタ (EDA) を使用したエンド ツー エンドのニューラル ダイアライゼーション (EEND) は、話者ダイアライゼーションの問題全体を単一のニューラル ネットワークで同時に処理する有望な方法です。
EEND モデルはすべてのフレーム レベルのスピーカー ラベルを同時に生成できますが、出力ラベルの依存関係は無視されます。
この作業では、フレーム間のラベル依存性を導入する新しい EEND モデルを提案します。
提案された方法は、非自己回帰中間アトラクタを生成して、下位層で話者ラベルを生成し、これらのラベルで後続の層を調整します。
提案されたモデルは非自己回帰方式で機能しますが、話者ラベルは中間ラベルのシーケンス全体を参照することによって洗練されます。
2 話者の CALLHOME データセットを使用した実験では、提案された非自己回帰中間アトラクターを使用した中間ラベルがダイアライゼーションのパフォーマンスを向上させることが示されています。
より深いネットワークを使用する提案された方法は、中間ラベルからより多くの恩恵を受け、EEND-EDA よりも優れたパフォーマンスとトレーニング スループットをもたらします。

要約(オリジナル)

End-to-end neural diarization (EEND) with encoder-decoder-based attractors (EDA) is a promising method to handle the whole speaker diarization problem simultaneously with a single neural network. While the EEND model can produce all frame-level speaker labels simultaneously, it disregards output label dependency. In this work, we propose a novel EEND model that introduces the label dependency between frames. The proposed method generates non-autoregressive intermediate attractors to produce speaker labels at the lower layers and conditions the subsequent layers with these labels. While the proposed model works in a non-autoregressive manner, the speaker labels are refined by referring to the whole sequence of intermediate labels. The experiments with the two-speaker CALLHOME dataset show that the intermediate labels with the proposed non-autoregressive intermediate attractors boost the diarization performance. The proposed method with the deeper network benefits more from the intermediate labels, resulting in better performance and training throughput than EEND-EDA.

arxiv情報

著者 Yusuke Fujita,Tatsuya Komatsu,Robin Scheibler,Yusuke Kida,Tetsuji Ogawa
発行日 2023-03-13 01:28:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク