United we stand, Divided we fall: Handling Weak Complementary Relationships for Audio-Visual Emotion Recognition in Valence-Arousal Space

要約

オーディオとビジュアルモダリティは、ビデオの2つの主要な接触チャネルであり、互いに補完的な関係を持つことが多いことがよくあります。
ただし、それらは常に互いに補完するとは限らず、視聴覚機能の表現が不十分になります。
この論文では、最も関連性の高い機能を適応的に選択して、オーディオおよび視覚モダリティ全体で最も関連性の高い機能を適応的に選択できるゲーティングメカニズムを使用して、ゲートの再帰的な関節の注意(GRJCA)を紹介します。
具体的には、補完的な関係の強さに応じて、入力機能と複数の反復の出席した特徴との間の情報の流れを制御するためのゲーティングメカニズムを導入することにより、再帰的な関節交差に関するパフォーマンスを改善します。
たとえば、モダリティが強力な補完的な関係を示す場合、ゲーティングメカニズムは、クロスアテンダーの特徴、そうでなければ参加していない機能を強調します。
システムのパフォーマンスをさらに向上させるために、すべての反復でゲーティングメカニズムを導入することにより、階層的なゲーティングアプローチも調査し、その後、各反復のゲート出力を横切る高レベルのゲーティングを行いました。
提案されたアプローチは、オーディオおよび視覚モダリティ全体で弱い補完的な関係に対処するために柔軟性を高めることにより、RJCAモデルのパフォーマンスを改善します。
提案されたアプローチの堅牢性を実証するために、挑戦的なAffWild2データセットで広範な実験が行われます。
オーディオおよび視覚モダリティ全体で弱い補完的な関係を効果的に処理することにより、提案されたモデルは、テストセット(検証セット)でそれぞれ価値と覚醒について、それぞれ0.561(0.623)および0.620(0.660)の一致相関係数(CCC)を達成します。

要約(オリジナル)

Audio and visual modalities are two predominant contact-free channels in videos, which are often expected to carry a complementary relationship with each other. However, they may not always complement each other, resulting in poor audio-visual feature representations. In this paper, we introduce Gated Recursive Joint Cross Attention (GRJCA) using a gating mechanism that can adaptively choose the most relevant features to effectively capture the synergic relationships across audio and visual modalities. Specifically, we improve the performance of Recursive Joint Cross-Attention (RJCA) by introducing a gating mechanism to control the flow of information between the input features and the attended features of multiple iterations depending on the strength of their complementary relationship. For instance, if the modalities exhibit strong complementary relationships, the gating mechanism emphasizes cross-attended features, otherwise non-attended features. To further improve the performance of the system, we also explored a hierarchical gating approach by introducing a gating mechanism at every iteration, followed by high-level gating across the gated outputs of each iteration. The proposed approach improves the performance of RJCA model by adding more flexibility to deal with weak complementary relationships across audio and visual modalities. Extensive experiments are conducted on the challenging Affwild2 dataset to demonstrate the robustness of the proposed approach. By effectively handling the weak complementary relationships across the audio and visual modalities, the proposed model achieves a Concordance Correlation Coefficient (CCC) of 0.561 (0.623) and 0.620 (0.660) for valence and arousal respectively on the test set (validation set).

arxiv情報

著者 R. Gnana Praveen,Jahangir Alam,Eric Charton
発行日 2025-03-21 16:51:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS パーマリンク