EmoCLIP: A Vision-Language Method for Zero-Shot Video Facial Expression Recognition

要約

表情認識 (FER) は感情コンピューティングにおいて重要なタスクですが、従来は 7 つの基本的な感情に焦点を当てていたため、複雑で拡大する感情スペクトルへの適用が制限されていました。
動的な野生のFERに存在する新たな目に見えない感情の問題に対処するために、サンプルレベルのテキスト記述(つまり、文脈、表現、または感情的な手がかりのキャプション)を自然言語の監視として利用する新しい視覚言語モデルを提案します。
、ゼロショット分類のために、豊富な潜在表現の学習を強化することを目的としています。
これをテストするために、4 つの一般的な動的 FER データセットのサンプルレベルの記述でトレーニングされたモデルのゼロショット分類を使用して評価します。
私たちの調査結果は、このアプローチがベースライン手法と比較して大幅な改善をもたらすことを示しています。
具体的には、ゼロショット ビデオ FER では、いくつかのデータセットで加重平均再現率の点で CLIP を 10\% 以上、非加重平均再現率の点で 5\% 以上優れています。
さらに、メンタルヘルス症状推定の下流タスクに関してサンプルレベルの記述を使用してトレーニングされたネットワークから得られた表現を評価し、最先端の方法と同等以上のパフォーマンスと人間の専門家との強い一致を達成しました。
すなわち、統合失調症の症状重症度推定に関して、最大 0.85 のピアソン相関係数を達成しており、これは人間の専門家の合意に匹敵します。
コードは https://github.com/NickyFot/EmoCLIP で公開されています。

要約(オリジナル)

Facial Expression Recognition (FER) is a crucial task in affective computing, but its conventional focus on the seven basic emotions limits its applicability to the complex and expanding emotional spectrum. To address the issue of new and unseen emotions present in dynamic in-the-wild FER, we propose a novel vision-language model that utilises sample-level text descriptions (i.e. captions of the context, expressions or emotional cues) as natural language supervision, aiming to enhance the learning of rich latent representations, for zero-shot classification. To test this, we evaluate using zero-shot classification of the model trained on sample-level descriptions on four popular dynamic FER datasets. Our findings show that this approach yields significant improvements when compared to baseline methods. Specifically, for zero-shot video FER, we outperform CLIP by over 10\% in terms of Weighted Average Recall and 5\% in terms of Unweighted Average Recall on several datasets. Furthermore, we evaluate the representations obtained from the network trained using sample-level descriptions on the downstream task of mental health symptom estimation, achieving performance comparable or superior to state-of-the-art methods and strong agreement with human experts. Namely, we achieve a Pearson’s Correlation Coefficient of up to 0.85 on schizophrenia symptom severity estimation, which is comparable to human experts’ agreement. The code is publicly available at: https://github.com/NickyFot/EmoCLIP.

arxiv情報

著者 Niki Maria Foteinopoulou,Ioannis Patras
発行日 2023-10-25 13:43:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC パーマリンク