ASDnB: Merging Face with Body Cues For Robust Active Speaker Detection

要約

最先端のアクティブ話者検出 (ASD) アプローチは、主に音声と顔の特徴を入力として使用します。
しかし、この論文の主な仮説は、身体のダイナミクスは「話す」(および「聞く」)動作にも高度に相関しており、顔に確実にアクセスできない野生の状況(監視環境など)では特に役立つはずである、というものです。
我々は、特徴抽出のさまざまなステップで入力をマージすることによって、顔と体の情報を単独で統合するモデルである ASDnB を提案します。
私たちのアプローチは、3D 畳み込みを 2D と 1D に分割して、パフォーマンスを損なうことなく計算コストを削減し、身体データによる顔の補完を改善するために適応重み付け特徴の重要性を使用してトレーニングされています。
私たちの実験では、ASDnB がベンチマーク データセット (AVA-ActiveSpeaker)、WASD の困難なデータ、および Columbia を使用したクロスドメイン設定で最先端の結果を達成することが示されています。
このようにして、ASDnB は複数の設定で実行でき、これは堅牢な ASD モデルの強力なベースラインとして積極的にみなされています (コードは https://github.com/Tiago-Roxo/ASDnB で入手できます)。

要約(オリジナル)

State-of-the-art Active Speaker Detection (ASD) approaches mainly use audio and facial features as input. However, the main hypothesis in this paper is that body dynamics is also highly correlated to ‘speaking’ (and ‘listening’) actions and should be particularly useful in wild conditions (e.g., surveillance settings), where face cannot be reliably accessed. We propose ASDnB, a model that singularly integrates face with body information by merging the inputs at different steps of feature extraction. Our approach splits 3D convolution into 2D and 1D to reduce computation cost without loss of performance, and is trained with adaptive weight feature importance for improved complement of face with body data. Our experiments show that ASDnB achieves state-of-the-art results in the benchmark dataset (AVA-ActiveSpeaker), in the challenging data of WASD, and in cross-domain settings using Columbia. This way, ASDnB can perform in multiple settings, which is positively regarded as a strong baseline for robust ASD models (code available at https://github.com/Tiago-Roxo/ASDnB).

arxiv情報

著者 Tiago Roxo,Joana C. Costa,Pedro Inácio,Hugo Proença
発行日 2024-12-11 18:12:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク