BeMERC: Behavior-Aware MLLM-based Framework for Multimodal Emotion Recognition in Conversation

要約

会話におけるマルチモーダル感情認識(Merc)は、会話の各発言の感情ラベルを識別するタスクであり、共感マシンを開発するために不可欠です。
現在のMLLMベースのMerc研究は、主にスピーカーのテキストまたはボーカルの特性のキャプチャに焦点を当てていますが、ビデオ由来の動作情報の重要性を無視しています。
テキストやオーディオ入力とは異なり、豊かな表情、ボディーランゲージ、姿勢を備えたビデオ学習ビデオは、より正確な感情予測のためにモデルに感情トリガー信号を提供します。
この論文では、微妙な顔の微小表現、ボディーランゲージ、姿勢を含むスピーカーの行動をバニラMLLMベースのMercモデルに組み込み、それによって会話中の感情的ダイナミクスのモデルを促進するために、新しい行動を意識したMLLMベースのフレームワーク(BEMERC)を提案します。
さらに、BEMERCは2段階の指導チューニング戦略を採用して、Merc Predictorのエンドツーエンドトレーニングのための会話シナリオにモデルを拡張します。
実験は、BEMERCが2つのベンチマークデータセットの最先端の方法よりも優れたパフォーマンスを達成し、Mercのビデオ由来行動情報の重要性に関する詳細な議論を提供することを示しています。

要約(オリジナル)

Multimodal emotion recognition in conversation (MERC), the task of identifying the emotion label for each utterance in a conversation, is vital for developing empathetic machines. Current MLLM-based MERC studies focus mainly on capturing the speaker’s textual or vocal characteristics, but ignore the significance of video-derived behavior information. Different from text and audio inputs, learning videos with rich facial expression, body language and posture, provides emotion trigger signals to the models for more accurate emotion predictions. In this paper, we propose a novel behavior-aware MLLM-based framework (BeMERC) to incorporate speaker’s behaviors, including subtle facial micro-expression, body language and posture, into a vanilla MLLM-based MERC model, thereby facilitating the modeling of emotional dynamics during a conversation. Furthermore, BeMERC adopts a two-stage instruction tuning strategy to extend the model to the conversations scenario for end-to-end training of a MERC predictor. Experiments demonstrate that BeMERC achieves superior performance than the state-of-the-art methods on two benchmark datasets, and also provides a detailed discussion on the significance of video-derived behavior information in MERC.

arxiv情報

著者 Yumeng Fu,Junjie Wu,Zhongjie Wang,Meishan Zhang,Yulin Wu,Bingquan Liu
発行日 2025-03-31 12:04:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク