Domain Adaptation based Interpretable Image Emotion Recognition using Facial Expression Recognition

要約

この論文では、顔および顔以外のオブジェクト、および人間以外のコンポーネントを含む一般的な画像内の感情を識別するためのドメイン適応技術が提案されています。
これは、画像感情認識 (IER) 用の事前トレーニング済みモデルと十分に注釈が付けられたデータセットの利用が不十分であるという課題に対処します。
まず顔感情認識 (FER) システムの提案から始まり、それを画像感情認識に適応させることに進みます。
まず、特定の顔画像を離散的な感情クラスに分類する深層学習ベースの FER システムが提案されています。
さらに、提案されたFERシステムを、ドメイン適応を使用して画像によって描写される感情を認識するように適合させる画像認識システムが提案されている。
一般的な画像を「幸せ」、「悲しい」、「嫌い」、「怒り」のクラスに分類します。
感情認識に関連性の高い視覚的特徴を解釈するために、新しい解釈可能性アプローチである分割統治ベースのシャップ (DnCShap) も提案されています。
提案されたシステムのアーキテクチャはアブレーション研究を通じて決定され、実験は 4 つの FER データセットと 4 つの IER データセットに対して実行されます。
提案された IER システムは、IAPSa データセットで 59.61%、ArtPhoto データセットで 57.83%、FI データセットで 67.93%、EMOTIC データセットで 55.13% の感情分類精度を示しました。
特定の感情クラスにつながる重要な視覚的特徴が特定され、提案されたシステムの予測を説明するためにさまざまな感情クラスの埋め込みプロットが分析されました。

要約(オリジナル)

A domain adaptation technique has been proposed in this paper to identify the emotions in generic images containing facial & non-facial objects and non-human components. It addresses the challenge of the insufficient availability of pre-trained models and well-annotated datasets for image emotion recognition (IER). It starts with proposing a facial emotion recognition (FER) system and then moves on to adapting it for image emotion recognition. First, a deep-learning-based FER system has been proposed that classifies a given facial image into discrete emotion classes. Further, an image recognition system has been proposed that adapts the proposed FER system to recognize the emotions portrayed by images using domain adaptation. It classifies the generic images into ‘happy,’ ‘sad,’ ‘hate,’ and ‘anger’ classes. A novel interpretability approach, Divide and Conquer based Shap (DnCShap), has also been proposed to interpret the highly relevant visual features for emotion recognition. The proposed system’s architecture has been decided through ablation studies, and the experiments are conducted on four FER and four IER datasets. The proposed IER system has shown an emotion classification accuracy of 59.61% for the IAPSa dataset, 57.83% for the ArtPhoto dataset, 67.93% for the FI dataset, and 55.13% for the EMOTIC dataset. The important visual features leading to a particular emotion class have been identified, and the embedding plots for various emotion classes have been analyzed to explain the proposed system’s predictions.

arxiv情報

著者 Puneet Kumar,Balasubramanian Raman
発行日 2024-02-07 13:23:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク