Omni-Emotion: Extending Video MLLM with Detailed Face and Audio Modeling for Multimodal Emotion Analysis

要約

感情を正確に理解することは、人間とコンピューターのインタラクションなどの分野では不可欠です。
感情の複雑さとそのマルチモーダルな性質(例、感情は顔の表情や音声によって影響を受ける)のため、研究者は人間の感情を理解するために単一モーダルではなくマルチモーダルモデルを使用することに目を向けています。
しかし、現在のビデオ マルチモーダル大規模言語モデル (MLLM) では、音声を効果的に統合し、顔の微妙な微表情を識別することが困難になります。
さらに、詳細な感情分析データセットの欠如も、マルチモーダル感情分析の開発を制限します。
これらの問題に対処するために、自己レビュー済みのデータセットと人間によるレビュー済みのデータセットを導入します。これらのデータセットは、それぞれ 24,137 個の粗粒サンプルと、詳細な感情の注釈が付けられた手動で注釈が付けられた 3,500 個のサンプルで構成されています。
これらのデータセットを使用すると、モデルがさまざまなシナリオから学習し、現実世界のアプリケーションに適切に一般化できるようになります。
さらに、音声モデリングに加えて、顔のエンコーディング モデルを既存の高度なビデオ MLLM に明示的に統合することを提案します。これにより、MLLM が音声と感情を理解するための微妙な顔の手がかりを効果的に統合できるようになります。
これらの機能を統一空間内に配置し、提案したデータセットで命令チューニングを採用することにより、オムニエモーションは感情認識タスクと推論タスクの両方で最先端のパフォーマンスを実現します。

要約(オリジナル)

Understanding emotions accurately is essential for fields like human-computer interaction. Due to the complexity of emotions and their multi-modal nature (e.g., emotions are influenced by facial expressions and audio), researchers have turned to using multi-modal models to understand human emotions rather than single-modality. However, current video multi-modal large language models (MLLMs) encounter difficulties in effectively integrating audio and identifying subtle facial micro-expressions. Furthermore, the lack of detailed emotion analysis datasets also limits the development of multimodal emotion analysis. To address these issues, we introduce a self-reviewed dataset and a human-reviewed dataset, comprising 24,137 coarse-grained samples and 3,500 manually annotated samples with detailed emotion annotations, respectively. These datasets allow models to learn from diverse scenarios and better generalize to real-world applications. Moreover, in addition to the audio modeling, we propose to explicitly integrate facial encoding models into the existing advanced Video MLLM, enabling the MLLM to effectively unify audio and the subtle facial cues for emotion understanding. By aligning these features within a unified space and employing instruction tuning in our proposed datasets, our Omni-Emotion achieves state-of-the-art performance in both emotion recognition and reasoning tasks.

arxiv情報

著者 Qize Yang,Detao Bai,Yi-Xing Peng,Xihan Wei
発行日 2025-01-16 12:27:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク