Cross-Attention is Not Always Needed: Dynamic Cross-Attention for Audio-Visual Dimensional Emotion Recognition

要約

ビデオベースの感情認識では、オーディオとビジュアルのモダリティは補完的な関係を持つことが期待されることが多く、これはクロスアテンションを使用して広く調査されています。
ただし、それらは弱い補完関係を示し、オーディオビジュアル機能の表現が不十分になり、システムのパフォーマンスが低下する可能性もあります。
この問題に対処するために、相互の強い補完関係または弱い補完関係に基づいて、相互参加機能または無人機能をオンザフライで動的に選択できる動的クロスアテンション (DCA) を提案します。
具体的には、シンプルだが効率的なゲート層は、クロスアテンション メカニズムの寄与を評価し、強い補完関係を示す場合にのみクロスアテンション機能を選択し、それ以外の場合は無人フィーチャを選択するように設計されています。
我々は、困難な RECOLA および Aff-Wild2 データセットに対する提案されたアプローチのパフォーマンスを評価します。
また、提案されたアプローチをクロスアテンションの他のバリエーションと比較し、提案されたモデルが両方のデータセットのパフォーマンスを一貫して向上させることを示します。

要約(オリジナル)

In video-based emotion recognition, audio and visual modalities are often expected to have a complementary relationship, which is widely explored using cross-attention. However, they may also exhibit weak complementary relationships, resulting in poor representations of audio-visual features, thus degrading the performance of the system. To address this issue, we propose Dynamic Cross-Attention (DCA) that can dynamically select cross-attended or unattended features on the fly based on their strong or weak complementary relationship with each other, respectively. Specifically, a simple yet efficient gating layer is designed to evaluate the contribution of the cross-attention mechanism and choose cross-attended features only when they exhibit a strong complementary relationship, otherwise unattended features. We evaluate the performance of the proposed approach on the challenging RECOLA and Aff-Wild2 datasets. We also compare the proposed approach with other variants of cross-attention and show that the proposed model consistently improves the performance on both datasets.

arxiv情報

著者 R. Gnana Praveen,Jahangir Alam
発行日 2024-03-28 16:38:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク