Textualized and Feature-based Models for Compound Multimodal Emotion Recognition in the Wild

要約

マルチモーダル感情認識 (ER) のシステムは一般に、さまざまなモダリティ (視覚、音声、テキストなど) から特徴を抽出し、それらを組み合わせて個々の基本的な感情を予測するようにトレーニングされます。
ただし、現実世界のシナリオでは複合感情が頻繁に発生し、さまざまなモダリティにわたってこのような複雑な感情を認識することが不確実であるため、特徴ベースのモデルでは困難です。代わりに、BERT や LLaMA などの新興のマルチモーダル大規模言語モデル (LLM) は、明示的な非言語モデルに依存しています。
– さまざまな非テキストモダリティ (例: 音声および視覚) からテキストに翻訳できる言語的合図。
モダリティのテキスト化は、LLM が共有テキスト空間内のすべてのモダリティ間の相互接続をエンコードできるように、感情的な手がかりでデータを強化します。
このようなテキストベースのモデルでは、ER タスクの事前知識を活用して、音声表現からの音声トーンや顔の表情からのアクション単位の強度など、関連する非言語的手がかりをテキスト化します。
事前トレーニングされた重みは多くの LLM で公開されているため、大規模なデータセットでのトレーニングは不要で、複合 ER (CER) などの下流タスクの微調整が可能になります。
この論文では、ビデオにおける複合マルチモーダル ER に対するテキストベースと特徴ベースのアプローチの可能性を比較します。
実験は、CER について実際の困難な C-EXPR-DB データセットで行われ、基本的な ER についての MELD データセットの結果と対比されました。
私たちの結果は、マルチモーダル テキスト化では、テキスト トランスクリプトが実際にキャプチャされる C-EXPR-DB 上の特徴ベースのモデルよりも精度が低いことを示しています。
ただし、ビデオ データに豊富なトランスクリプトが含まれている場合は、より高い精度を達成できます。
私たちのコードが利用可能です。

要約(オリジナル)

Systems for multimodal emotion recognition (ER) are commonly trained to extract features from different modalities (e.g., visual, audio, and textual) that are combined to predict individual basic emotions. However, compound emotions often occur in real-world scenarios, and the uncertainty of recognizing such complex emotions over diverse modalities is challenging for feature-based models As an alternative, emerging multimodal large language models (LLMs) like BERT and LLaMA rely on explicit non-verbal cues that may be translated from different non-textual modalities (e.g., audio and visual) into text. Textualization of modalities augments data with emotional cues to help the LLM encode the interconnections between all modalities in a shared text space. In such text-based models, prior knowledge of ER tasks is leveraged to textualize relevant nonverbal cues such as audio tone from vocal expressions, and action unit intensity from facial expressions. Since the pre-trained weights are publicly available for many LLMs, training on large-scale datasets is unnecessary, allowing fine-tuning for downstream tasks such as compound ER (CER). This paper compares the potential of text- and feature-based approaches for compound multimodal ER in videos. Experiments were conducted on the challenging C-EXPR-DB dataset in the wild for CER, and contrasted with results on the MELD dataset for basic ER. Our results indicate that multimodal textualization provides lower accuracy than feature-based models on C-EXPR-DB, where text transcripts are captured in the wild. However, higher accuracy can be achieved when the video data has rich transcripts. Our code is available.

arxiv情報

著者 Nicolas Richet,Soufiane Belharbi,Haseeb Aslam,Meike Emilie Schadt,Manuela González-González,Gustave Cortal,Alessandro Lameiras Koerich,Marco Pedersoli,Alain Finkel,Simon Bacon,Eric Granger
発行日 2024-08-01 13:51:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク