Inconsistency-Aware Cross-Attention for Audio-Visual Fusion in Dimensional Emotion Recognition

要約

マルチモーダル感情認識では、モダリティ間の補完関係を活用することが最近大きな注目を集めています。
既存のアプローチのほとんどは、モダリティ間の補完的な関係を捉えるために相互注意を検討していました。
ただし、モダリティは弱い相補関係を示す可能性もあり、これにより相互参加特徴が劣化し、マルチモーダル特徴表現が不十分になる可能性があります。
この問題に対処するために、私たちは、オーディオとビジュアルのモダリティ全体にわたる強弱の補完関係に基づいて、最も関連性の高い機能をオンザフライで適応的に選択できる、不整合性認識クロスアテンション (IACA) を提案します。
具体的には、弱い相補関係に対処するために適切な関連特徴を適応的に選択できる 2 段階のゲート メカニズムを設計します。
提案されたモデルの堅牢性を示すために、困難な Aff-Wild2 データセットに対して広範な実験が行われました。

要約(オリジナル)

Leveraging complementary relationships across modalities has recently drawn a lot of attention in multimodal emotion recognition. Most of the existing approaches explored cross-attention to capture the complementary relationships across the modalities. However, the modalities may also exhibit weak complementary relationships, which may deteriorate the cross-attended features, resulting in poor multimodal feature representations. To address this problem, we propose Inconsistency-Aware Cross-Attention (IACA), which can adaptively select the most relevant features on-the-fly based on the strong or weak complementary relationships across audio and visual modalities. Specifically, we design a two-stage gating mechanism that can adaptively select the appropriate relevant features to deal with weak complementary relationships. Extensive experiments are conducted on the challenging Aff-Wild2 dataset to show the robustness of the proposed model.

arxiv情報

著者 R Gnana Praveen,Jahangir Alam
発行日 2024-05-21 15:11:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク