Joint Multimodal Transformer for Dimensional Emotional Recognition in the Wild

要約

ビデオにおける視聴覚感情認識 (ER) には、単峰性のパフォーマンスに比べて計り知れない可能性があります。
視覚モダリティと聴覚モダリティ間のモーダル間およびモーダル内の依存関係を効果的に活用します。
この研究では、キーベースのクロスアテンションを備えた共同マルチモーダルトランスフォーマーアーキテクチャを利用した、新しいオーディオビジュアル感情認識システムを提案します。
このフレームワークは、ビデオ内のオーディオとビジュアルのキュー (表情や音声パターン) の相補的な性質を活用し、単一のモダリティのみに依存する場合と比較して優れたパフォーマンスを実現することを目的としています。
提案されたモデルは、各モダリティ (オーディオとビジュアル) 内のモーダル内の時間的依存関係をキャプチャするために個別のバックボーンを活用します。
その後、統合マルチモーダル トランスフォーマー アーキテクチャによって個々のモダリティの埋め込みが統合され、モデルがモーダル間 (オーディオとビジュアルの間) およびモーダル内 (各モダリティ内) の関係を効果的にキャプチャできるようになります。
困難な Affwild2 データセットに対する広範な評価により、提案されたモデルが ER タスクにおけるベースラインおよび最先端の手法を大幅に上回ることが実証されました。

要約(オリジナル)

Audiovisual emotion recognition (ER) in videos has immense potential over unimodal performance. It effectively leverages the inter- and intra-modal dependencies between visual and auditory modalities. This work proposes a novel audio-visual emotion recognition system utilizing a joint multimodal transformer architecture with key-based cross-attention. This framework aims to exploit the complementary nature of audio and visual cues (facial expressions and vocal patterns) in videos, leading to superior performance compared to solely relying on a single modality. The proposed model leverages separate backbones for capturing intra-modal temporal dependencies within each modality (audio and visual). Subsequently, a joint multimodal transformer architecture integrates the individual modality embeddings, enabling the model to effectively capture inter-modal (between audio and visual) and intra-modal (within each modality) relationships. Extensive evaluations on the challenging Affwild2 dataset demonstrate that the proposed model significantly outperforms baseline and state-of-the-art methods in ER tasks.

arxiv情報

著者 Paul Waligora,Osama Zeeshan,Haseeb Aslam,Soufiane Belharbi,Alessandro Lameiras Koerich,Marco Pedersoli,Simon Bacon,Eric Granger
発行日 2024-03-15 17:23:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS パーマリンク