要約
現在の表情認識 (FER) モデルは教師あり学習方式で設計されていることが多いため、高品質の注釈を備えた大規模な表情画像が不足しているという制約があります。
その結果、これらのモデルは多くの場合うまく一般化できず、トレーニング中の目に見えない画像ではパフォーマンスが低下します。
ビジョン言語ベースのゼロショット モデルは、このような課題に対処するための有望な可能性を示しています。
ただし、これらのモデルにはタスク固有の知識が不足しているため、顔の表情を認識するニュアンスに対しては最適化されていません。
このギャップを埋めるために、この研究では、大規模言語モデル (LLM) からタスクの知識を転送することでゼロショット FER を強化する新しい方法 Exp-CLIP を提案します。
具体的には、事前にトレーニングされた視覚言語エンコーダーに基づいて、最初の共同視覚言語空間を顔の動作の表現をキャプチャする空間にマッピングするように設計された投影ヘッドを組み込みます。
後続のゼロショット予測のためにこの投影ヘッドをトレーニングするために、投影された視覚表現を LLM エンコーダから導出されたタスク固有の意味論的意味と調整することを提案します。また、LLM 知識をカスタマイズするためにテキスト命令ベースの戦略が採用されます。
ラベルのない顔データとプロジェクション ヘッドの効率的なトレーニングを考慮すると、Exp-CLIP は、7 つの実際の FER データセットで CLIP モデルや他のいくつかの大規模ビジョン言語モデル (LVLM) よりも優れたゼロショット結果を達成します。
コードと事前トレーニングされたモデルは \url{https://github.com/zengqunzhao/Exp-CLIP} で入手できます。
要約(オリジナル)
Current facial expression recognition (FER) models are often designed in a supervised learning manner thus are constrained by the lack of large-scale facial expression images with high-quality annotations. Consequently, these models often fail to generalize well, performing poorly on unseen images in training. Vision-language-based zero-shot models demonstrate a promising potential for addressing such challenges. However, these models lack task-specific knowledge therefore are not optimized for the nuances of recognizing facial expressions. To bridge this gap, this work proposes a novel method, Exp-CLIP, to enhance zero-shot FER by transferring the task knowledge from large language models (LLMs). Specifically, based on the pre-trained vision-language encoders, we incorporate a projection head designed to map the initial joint vision-language space into a space that captures representations of facial actions. To train this projection head for subsequent zero-shot predictions, we propose to align the projected visual representations with task-specific semantic meanings derived from the LLM encoder, and the text instruction-based strategy is employed to customize the LLM knowledge. Given unlabelled facial data and efficient training of the projection head, Exp-CLIP achieves superior zero-shot results to the CLIP models and several other large vision-language models (LVLMs) on seven in-the-wild FER datasets. The code and pre-trained models are available at \url{https://github.com/zengqunzhao/Exp-CLIP}.
arxiv情報
著者 | Zengqun Zhao,Yu Cao,Shaogang Gong,Ioannis Patras |
発行日 | 2024-05-29 14:06:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google