要約
表情認識 (FER) 用の最先端の分類器は高レベルの精度を達成できますが、エンドユーザーにとって重要な機能である解釈可能性が欠けています。
専門家は通常、表情を視覚的に解釈するために、コードブックの空間アクション ユニット (\aus) を顔の領域に関連付けます。
このペーパーでは、同じ専門家の手順に従います。
\au キューを分類器トレーニングに明示的に組み込む新しい学習戦略が提案され、深い解釈可能なモデルをトレーニングできるようになります。
トレーニング中、この \au コードブックは、入力画像表情ラベルおよび顔のランドマークとともに使用され、顔の表情に関して最も識別力の高い画像の関心領域を示す \au ヒートマップを構築します。
この貴重な空間キューは、FER の詳細な解釈可能な分類器をトレーニングするために利用されます。
これは、分類器の空間レイヤーの特徴が \au ヒートマップと関連付けられるように制限することによって実現されます。
複合損失を使用して、分類器は画像を正しく分類するようにトレーニングされ、\au マップと関連付けられた解釈可能な視覚的な層ごとの注意を生成し、専門家の意思決定プロセスをシミュレートします。
私たちの戦略は、追加の手動アノテーションを使用せず、監視のために画像クラスの表現のみに依存します。
私たちの新しい戦略は汎用的であり、アーキテクチャの変更や大幅な追加のトレーニング時間を必要とせずに、あらゆる深層 CNN またはトランスフォーマーベースの分類器に適用できます。
2 つの公開ベンチマーク \rafdb および \affectnet データセットに対する広範な評価により、提案された戦略が分類パフォーマンスを低下させることなく層ごとの解釈可能性を向上できることがわかりました。
さらに、クラス アクティベーション マッピング (CAM) メソッドに依存する一般的なタイプの解釈可能な分類子を調査し、私たちのアプローチが CAM の解釈可能性も向上できることを示します。
要約(オリジナル)
Although state-of-the-art classifiers for facial expression recognition (FER) can achieve a high level of accuracy, they lack interpretability, an important feature for end-users. Experts typically associate spatial action units (\aus) from a codebook to facial regions for the visual interpretation of expressions. In this paper, the same expert steps are followed. A new learning strategy is proposed to explicitly incorporate \au cues into classifier training, allowing to train deep interpretable models. During training, this \au codebook is used, along with the input image expression label, and facial landmarks, to construct a \au heatmap that indicates the most discriminative image regions of interest w.r.t the facial expression. This valuable spatial cue is leveraged to train a deep interpretable classifier for FER. This is achieved by constraining the spatial layer features of a classifier to be correlated with \au heatmaps. Using a composite loss, the classifier is trained to correctly classify an image while yielding interpretable visual layer-wise attention correlated with \au maps, simulating the expert decision process. Our strategy only relies on image class expression for supervision, without additional manual annotations. Our new strategy is generic, and can be applied to any deep CNN- or transformer-based classifier without requiring any architectural change or significant additional training time. Our extensive evaluation on two public benchmarks \rafdb, and \affectnet datasets shows that our proposed strategy can improve layer-wise interpretability without degrading classification performance. In addition, we explore a common type of interpretable classifiers that rely on class activation mapping (CAM) methods, and show that our approach can also improve CAM interpretability.
arxiv情報
著者 | Soufiane Belharbi,Marco Pedersoli,Alessandro Lameiras Koerich,Simon Bacon,Eric Granger |
発行日 | 2024-04-25 16:55:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google