ExpLLM: Towards Chain of Thought for Facial Expression Recognition

要約

表情認識 (FER) は、さまざまなドメインに重大な影響を与えるマルチメディアにおける重要なタスクです。
しかし、表情を正確に認識するには、その原因を分析することが不可欠です。
顔の動作単位 (AU) に基づくアプローチなど、現在のアプローチでは、通常、AU の名前と強度が提供されますが、AU と全体的な表情の間の相互作用や関係についての洞察が欠けています。
この論文では、大規模な言語モデルを活用して顔の表情認識のための正確な思考連鎖 (CoT) を生成する、ExpLLM と呼ばれる新しい方法を提案します。
具体的には、主要な観察、全体的な感情の解釈、結論という 3 つの主要な観点から CoT メカニズムを設計しました。
重要な観察結果は、AU の名前、強度、および関連する感情を説明します。
全体的な感情の解釈では、複数の AU とその相互作用に基づいた分析が提供され、支配的な感情とその関係が特定されます。
最後に、結論として、前の分析から導出された最終的な発現ラベルが示されます。
さらに、この式 CoT を構築し、ExpLLM をトレーニングするための命令記述データを生成するように設計された Exp-CoT エンジンも紹介します。
RAF-DB および AffectNet データセットに関する広範な実験により、ExpLLM が現在の最先端の FER メソッドよりも優れたパフォーマンスを発揮することが実証されました。
ExpLLM はまた、発現 CoT 生成において、特に GPT-4o が頻繁に失敗する微小発現の認識において、最新の GPT-4o を上回っています。

要約(オリジナル)

Facial expression recognition (FER) is a critical task in multimedia with significant implications across various domains. However, analyzing the causes of facial expressions is essential for accurately recognizing them. Current approaches, such as those based on facial action units (AUs), typically provide AU names and intensities but lack insight into the interactions and relationships between AUs and the overall expression. In this paper, we propose a novel method called ExpLLM, which leverages large language models to generate an accurate chain of thought (CoT) for facial expression recognition. Specifically, we have designed the CoT mechanism from three key perspectives: key observations, overall emotional interpretation, and conclusion. The key observations describe the AU’s name, intensity, and associated emotions. The overall emotional interpretation provides an analysis based on multiple AUs and their interactions, identifying the dominant emotions and their relationships. Finally, the conclusion presents the final expression label derived from the preceding analysis. Furthermore, we also introduce the Exp-CoT Engine, designed to construct this expression CoT and generate instruction-description data for training our ExpLLM. Extensive experiments on the RAF-DB and AffectNet datasets demonstrate that ExpLLM outperforms current state-of-the-art FER methods. ExpLLM also surpasses the latest GPT-4o in expression CoT generation, particularly in recognizing micro-expressions where GPT-4o frequently fails.

arxiv情報

著者 Xing Lan,Jian Xue,Ji Qi,Dongmei Jiang,Ke Lu,Tat-Seng Chua
発行日 2024-09-04 15:50:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク