Facial Affective Behavior Analysis with Instruction Tuning

要約

顔の感情行動分析 (FABA) は、画像から人間の精神状態を理解するために重要です。
ただし、従来のアプローチでは、主に離散的な感情カテゴリを区別するモデルを展開しており、複雑な顔の動作に対する細かい粒度や推論機能が不足しています。
マルチモーダル大規模言語モデル (MLLM) の出現は、一般的な視覚的理解タスクにおいて成功することが証明されています。
ただし、データセットとベンチマークが不足していること、顔の事前知識が無視されていること、トレーニング効率が低いことなどにより、FABA に MLLM を直接利用することは困難です。
これらの課題に対処するために、(i) 2 つの FABA タスク (感情と行動単位の認識など) のための命令に従うデータセット、(ii) 認識と生成能力の両方を考慮した新しい指標を備えたベンチマーク FABA-Bench、および (iii) を導入します。
) コミュニティへの強力なベースラインとしての新しい MLLM「EmoLA」。
データセットとベンチマークに対する私たちの取り組みにより、顔の感情的な行動の性質と理論的根拠、つまり、きめ細かい顔の動き、解釈可能性、推論が明らかになります。
さらに、効果的かつ効率的なFABA MLLMを構築するために、顔構造の知識を備えた顔事前エキスパートモジュールと低ランク適応モジュールを事前トレーニングされたMLLMに導入します。
私たちは、FABA-Bench と一般的に使用される 4 つの FABA データセットで広範な実験を行っています。
結果は、提案されたフェイシャルの事前専門家がパフォーマンスを向上させることができ、EmoLA が FABA ベンチで最良の結果を達成できることを示しています。
一般的に使用される FABA データセットでは、EmoLA はタスク固有の最先端のモデルに匹敵する競争力を持っています。

要約(オリジナル)

Facial affective behavior analysis (FABA) is crucial for understanding human mental states from images. However, traditional approaches primarily deploy models to discriminate among discrete emotion categories, and lack the fine granularity and reasoning capability for complex facial behaviors. The advent of Multi-modal Large Language Models (MLLMs) has been proven successful in general visual understanding tasks. However, directly harnessing MLLMs for FABA is challenging due to the scarcity of datasets and benchmarks, neglecting facial prior knowledge, and low training efficiency. To address these challenges, we introduce (i) an instruction-following dataset for two FABA tasks, e.g., emotion and action unit recognition, (ii) a benchmark FABA-Bench with a new metric considering both recognition and generation ability, and (iii) a new MLLM ‘EmoLA’ as a strong baseline to the community. Our initiative on the dataset and benchmarks reveal the nature and rationale of facial affective behaviors, i.e., fine-grained facial movement, interpretability, and reasoning. Moreover, to build an effective and efficient FABA MLLM, we introduce a facial prior expert module with face structure knowledge and a low-rank adaptation module into pre-trained MLLM. We conduct extensive experiments on FABA-Bench and four commonly-used FABA datasets. The results demonstrate that the proposed facial prior expert can boost the performance and EmoLA achieves the best results on our FABA-Bench. On commonly-used FABA datasets, EmoLA is competitive rivaling task-specific state-of-the-art models.

arxiv情報

著者 Yifan Li,Anh Dao,Wentao Bao,Zhen Tan,Tianlong Chen,Huan Liu,Yu Kong
発行日 2024-07-12 17:52:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク