要約
表情認識は人間の行動分析に不可欠であり、ディープラーニングによって人間を凌駕するモデルが可能になった。しかし、それらが人間の処理をどれだけ忠実に模倣しているかは不明である。本研究では、一般的な物体分類器とFERに特化したモデルの両方を含む12種類のネットワークを比較することで、ディープニューラルネットワークと人間の知覚の類似性を探ることを目的とする。革新的な大域的説明可能AI手法を採用してヒートマップを生成し、6つの表情で訓練された12種類のネットワークの重要な顔領域を明らかにする。これらの結果を、FriesenとEkmanの記述に基づくグランドトゥルースマスクと比較し、定量的・定性的に評価する。比較にはIntersection over Union (IoU)と正規化相関係数を用いる。各表現とアーキテクチャの重要な領域を強調するために72のヒートマップを生成する。定性的には、事前訓練された重みを持つモデルは、事前訓練されていないモデルと比較して、ヒートマップにおいてより多くの類似性を示す。特に、目と鼻の領域は特定の表情に影響を与えるが、口はすべてのモデルと表情で一貫して重要である。定量的には、すべての表情とアーキテクチャにおいて、平均IoU値が低い(平均0.2702)ことがわかる。最もパフォーマンスの高いアーキテクチャは平均0.3269であり、最もパフォーマンスの低いアーキテクチャは平均0.2066である。正規化相関係数を用いて作成されたデンドログラムは、ほとんどの表現で2つの主要なクラスターを明らかにした。この結果は、人間とAIの表情認識の間に限定的な整合性があることを示唆しており、類似したアーキテクチャが類似した顔領域を優先するため、ネットワークアーキテクチャが類似性に影響を及ぼしている。
要約(オリジナル)
Facial expression recognition is vital for human behavior analysis, and deep learning has enabled models that can outperform humans. However, it is unclear how closely they mimic human processing. This study aims to explore the similarity between deep neural networks and human perception by comparing twelve different networks, including both general object classifiers and FER-specific models. We employ an innovative global explainable AI method to generate heatmaps, revealing crucial facial regions for the twelve networks trained on six facial expressions. We assess these results both quantitatively and qualitatively, comparing them to ground truth masks based on Friesen and Ekman’s description and among them. We use Intersection over Union (IoU) and normalized correlation coefficients for comparisons. We generate 72 heatmaps to highlight critical regions for each expression and architecture. Qualitatively, models with pre-trained weights show more similarity in heatmaps compared to those without pre-training. Specifically, eye and nose areas influence certain facial expressions, while the mouth is consistently important across all models and expressions. Quantitatively, we find low average IoU values (avg. 0.2702) across all expressions and architectures. The best-performing architecture averages 0.3269, while the worst-performing one averages 0.2066. Dendrograms, built with the normalized correlation coefficient, reveal two main clusters for most expressions: models with pre-training and models without pre-training. Findings suggest limited alignment between human and AI facial expression recognition, with network architectures influencing the similarity, as similar architectures prioritize similar facial regions.
arxiv情報
著者 | F. Xavier Gaya-Morey,Silvia Ramis-Guarinos,Cristina Manresa-Yee,Jose M. Buades-Rubio |
発行日 | 2024-09-03 07:39:39+00:00 |
arxivサイト | arxiv_id(pdf) |