Audio-Visual Activity Guided Cross-Modal Identity Association for Active Speaker Detection

要約

ビデオでのアクティブ スピーカーの検出は、ビデオ フレームに表示されるソースの顔と、オーディオ モダリティの基になる発話との関連付けに対処します。
このようなスピーチと顔の関係を導き出すための 2 つの主要な情報源は、i) 視覚活動とそのスピーチ信号との相互作用、および ii) 顔とスピーチの形でのモダリティ全体での話者のアイデンティティの共起です。
2 つのアプローチには限界があります。視聴覚活動モデルは、笑いや咀嚼などの他の頻繁に発生する発声活動と混同されますが、話者のアイデンティティベースの方法は、スピーチフェイスを確立するのに十分な曖昧さを解消する情報を含むビデオに限定されます。
協会。
2 つのアプローチは独立しているため、この作業では補完的な性質を調査します。
アクティブ スピーカー検出のための視聴覚活動とスピーカーのクロス モーダル アイデンティティの関連付けをガイドする新しい教師なしフレームワークを提案します。
2 つのベンチマーク データセット、AVA アクティブ スピーカー (映画) と Visual Person Clustering Dataset (テレビ番組) からのエンターテイメント メディア ビデオの実験を通じて、2 つのアプローチの単純な後期融合がアクティブ スピーカー検出パフォーマンスを向上させることを示します。

要約(オリジナル)

Active speaker detection in videos addresses associating a source face, visible in the video frames, with the underlying speech in the audio modality. The two primary sources of information to derive such a speech-face relationship are i) visual activity and its interaction with the speech signal and ii) co-occurrences of speakers’ identities across modalities in the form of face and speech. The two approaches have their limitations: the audio-visual activity models get confused with other frequently occurring vocal activities, such as laughing and chewing, while the speakers’ identity-based methods are limited to videos having enough disambiguating information to establish a speech-face association. Since the two approaches are independent, we investigate their complementary nature in this work. We propose a novel unsupervised framework to guide the speakers’ cross-modal identity association with the audio-visual activity for active speaker detection. Through experiments on entertainment media videos from two benchmark datasets, the AVA active speaker (movies) and Visual Person Clustering Dataset (TV shows), we show that a simple late fusion of the two approaches enhances the active speaker detection performance.

arxiv情報

著者 Rahul Sharma,Shrikanth Narayanan
発行日 2022-12-01 14:46:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク