MicroEmo: Time-Sensitive Multimodal Emotion Recognition with Micro-Expression Dynamics in Video Dialogues

要約

マルチモーダル大規模言語モデル (MLLM) は、ビデオ内の視覚、音響、言語コンテキストからのマルチモーダルな手がかりを統合して人間の感情状態を認識する、驚くべきマルチモーダル感情認識機能を実証しました。
しかし、既存の方法は、微表情の時間的ダイナミクスの局所的な顔の特徴の捕捉を無視し、ビデオ内の発話を認識する時間的セグメントの文脈依存性を活用していないため、期待される有効性はある程度制限されています。
この研究では、局所的な顔の微表情のダイナミクスと発話を意識したビデオ クリップの文脈依存性に注意を向けることを目的とした、時間に敏感な MLLM である MicroEmo を提案します。
私たちのモデルには、2 つの主要なアーキテクチャ上の貢献が組み込まれています。(1) グローバル フレーム レベルのタイムスタンプにバインドされた画像特徴と、微表情の時間的ダイナミクスのローカルな顔の特徴を統合するグローバル ローカル アテンション ビジュアル エンコーダー。
(2) 発話認識ビデオ Q-Former は、各発話セグメントおよびビデオ全体に対して視覚的なトークン シーケンスを生成し、それらを組み合わせることで、マルチスケールおよびコンテキストの依存関係をキャプチャします。
予備的な定性実験では、マルチモーダルかつ多面的な手がかりを活用してオープンボキャブラリー (OV) 方式で感情を予測する新しい Explainable Multimodal Emotion Recognition (EMER) タスクにおいて、MicroEmo が最新の方法と比較してその有効性を実証していることが実証されています。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) have demonstrated remarkable multimodal emotion recognition capabilities, integrating multimodal cues from visual, acoustic, and linguistic contexts in the video to recognize human emotional states. However, existing methods ignore capturing local facial features of temporal dynamics of micro-expressions and do not leverage the contextual dependencies of the utterance-aware temporal segments in the video, thereby limiting their expected effectiveness to a certain extent. In this work, we propose MicroEmo, a time-sensitive MLLM aimed at directing attention to the local facial micro-expression dynamics and the contextual dependencies of utterance-aware video clips. Our model incorporates two key architectural contributions: (1) a global-local attention visual encoder that integrates global frame-level timestamp-bound image features with local facial features of temporal dynamics of micro-expressions; (2) an utterance-aware video Q-Former that captures multi-scale and contextual dependencies by generating visual token sequences for each utterance segment and for the entire video then combining them. Preliminary qualitative experiments demonstrate that in a new Explainable Multimodal Emotion Recognition (EMER) task that exploits multi-modal and multi-faceted clues to predict emotions in an open-vocabulary (OV) manner, MicroEmo demonstrates its effectiveness compared with the latest methods.

arxiv情報

著者 Liyun Zhang
発行日 2024-07-23 15:05:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク