要約
最先端のアクティブ スピーカー検出 (ASD) アプローチは、音声と顔の特徴に大きく依存して実行されますが、これは荒々しいシナリオでは持続可能なアプローチではありません。
これらの方法は標準の AVA-ActiveSpeaker セットで良好な結果を達成しますが、最近のよりワイルドな ASD データセット (WASD) はそのようなモデルの限界を示し、新しいアプローチの必要性を高めました。
そのため、私たちは、変化する/困難な状況下でアクティブな話者を正確に予測するために、音声、顔、身体の情報を初めて組み合わせたモデルである BIAS を提案します。
さらに、我々は、Squeeze-and-Exciltation ブロックの新しい使用法、つまりアテンション ヒートマップの作成と特徴の重要性評価を提案することで、解釈可能性を提供するように BIAS を設計します。
完全な解釈可能性を設定するには、ASD 関連のアクション データセット (ASD-Text) に注釈を付けて、テキスト シーン記述用の ViT-GPT2 を微調整して、BIAS の解釈可能性を補完します。
結果は、身体ベースの特徴が最も重要である困難な条件 (コロンビア、オープン設定、WASD) において BIAS が最先端であり、顔の影響がより大きい AVA-ActiveSpeaker では競争力のある結果をもたらしていることを示しています。
ASDの身体よりも。
BIAS の解釈可能性は、さまざまな設定における ASD 予測により関連性の高い機能/側面も示しており、解釈可能な ASD モデルのさらなる開発のための強力なベースラインとなり、https://github.com/Tiago-Roxo/BIAS で利用可能です。
要約(オリジナル)
State-of-the-art Active Speaker Detection (ASD) approaches heavily rely on audio and facial features to perform, which is not a sustainable approach in wild scenarios. Although these methods achieve good results in the standard AVA-ActiveSpeaker set, a recent wilder ASD dataset (WASD) showed the limitations of such models and raised the need for new approaches. As such, we propose BIAS, a model that, for the first time, combines audio, face, and body information, to accurately predict active speakers in varying/challenging conditions. Additionally, we design BIAS to provide interpretability by proposing a novel use for Squeeze-and-Excitation blocks, namely in attention heatmaps creation and feature importance assessment. For a full interpretability setup, we annotate an ASD-related actions dataset (ASD-Text) to finetune a ViT-GPT2 for text scene description to complement BIAS interpretability. The results show that BIAS is state-of-the-art in challenging conditions where body-based features are of utmost importance (Columbia, open-settings, and WASD), and yields competitive results in AVA-ActiveSpeaker, where face is more influential than body for ASD. BIAS interpretability also shows the features/aspects more relevant towards ASD prediction in varying settings, making it a strong baseline for further developments in interpretable ASD models, and is available at https://github.com/Tiago-Roxo/BIAS.
arxiv情報
著者 | Tiago Roxo,Joana C. Costa,Pedro R. M. Inácio,Hugo Proença |
発行日 | 2024-12-06 16:08:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google