Late Audio-Visual Fusion for In-The-Wild Speaker Diarization

要約

話者ダイアライゼーションは、制約された音声についてはよく研究されていますが、話者が多く、発話が短く、画面上の話者が一貫性がない、挑戦的な野外ビデオについてはほとんど研究されていません。
我々は、後期融合を介してオーディオのみのサブシステムと視覚中心のサブシステムを組み合わせるオーディオビジュアルダイアライゼーションモデルを提案することで、このギャップに対処します。
オーディオについては、アトラクターベースのエンドツーエンド システム (EEND-EDA) が、私たちが提案したシミュレートされたプロキシ データセットのレシピでトレーニングされた場合に驚くほど良好に機能することを示し、次の点に注意を使用する改良版 EEND-EDA++ を提案します。
多数の話者をより適切に処理するために、トレーニング中のデコードと話者認識の損失が発生します。
視覚中心のサブシステムは、顔の属性と唇と音声の同期性を利用して、画面上の話者のアイデンティティと発話アクティビティを推定します。
どちらのサブシステムも最先端技術 (SOTA) を大幅に上回り、融合オーディオビジュアル システムは AVA-AVD ベンチマークで新しい SOTA を達成しました。

要約(オリジナル)

Speaker diarization is well studied for constrained audios but little explored for challenging in-the-wild videos, which have more speakers, shorter utterances, and inconsistent on-screen speakers. We address this gap by proposing an audio-visual diarization model which combines audio-only and visual-centric sub-systems via late fusion. For audio, we show that an attractor-based end-to-end system (EEND-EDA) performs remarkably well when trained with our proposed recipe of a simulated proxy dataset, and propose an improved version, EEND-EDA++, that uses attention in decoding and a speaker recognition loss during training to better handle the larger number of speakers. The visual-centric sub-system leverages facial attributes and lip-audio synchrony for identity and speech activity estimation of on-screen speakers. Both sub-systems surpass the state of the art (SOTA) by a large margin, with the fused audio-visual system achieving a new SOTA on the AVA-AVD benchmark.

arxiv情報

著者 Zexu Pan,Gordon Wichern,François G. Germain,Aswin Subramanian,Jonathan Le Roux
発行日 2023-09-27 12:47:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク