Multi-Domain Norm-referenced Encoding Enables Data Efficient Transfer Learning of Facial Expression Recognition

要約

タイトル:多ドメイン規範基準符号化による効率的な転移学習の可能化

要約:
– 機械学習アルゴリズムは、アニメーションや動物の表情など、自然な形でない表情に苦戦している。
– よって、ドメイン特異的な参照枠を組み込んだ、生物学的にインスピレーションを得た転移学習のメカニズムを提案した。
– この方式は、表情パターンを、ドメイン固有の基準ベクトルに対する差分ベクトルを用いて符号化する方法である。
– 正しい参照枠を組み込むことで、複数のドメインにおけるデータ効率の高い転移学習を実現した。
– 提案されたアーキテクチャにより、人間の脳が広範な頭部形状の表情を学習するメカニズムにも示唆を与えている。
– この方式により、ニューラルユニットの活動から表情の強度を直接読み出すことができるため、脳内の表情選択ニューロンと同様の機能を持つ。
– このモデルは、FERGデータセットで92.15%の分類精度を達成し、非常にデータ効率が高いことを証明。
– 提案されたメカニズムは、各クラス(表情)ごとに1枚の画像と各ドメイン(アバター)ごとに1枚の画像を含むわずか12枚の画像だけで訓練されたが、データセットの制作者は43,000枚の画像で訓練されたFaceExprモデルによる89.02%の分類精度を達成している。

要約(オリジナル)

People can innately recognize human facial expressions in unnatural forms, such as when depicted on the unusual faces drawn in cartoons or when applied to an animal’s features. However, current machine learning algorithms struggle with out-of-domain transfer in facial expression recognition (FER). We propose a biologically-inspired mechanism for such transfer learning, which is based on norm-referenced encoding, where patterns are encoded in terms of difference vectors relative to a domain-specific reference vector. By incorporating domain-specific reference frames, we demonstrate high data efficiency in transfer learning across multiple domains. Our proposed architecture provides an explanation for how the human brain might innately recognize facial expressions on varying head shapes (humans, monkeys, and cartoon avatars) without extensive training. Norm-referenced encoding also allows the intensity of the expression to be read out directly from neural unit activity, similar to face-selective neurons in the brain. Our model achieves a classification accuracy of 92.15\% on the FERG dataset with extreme data efficiency. We train our proposed mechanism with only 12 images, including a single image of each class (facial expression) and one image per domain (avatar). In comparison, the authors of the FERG dataset achieved a classification accuracy of 89.02\% with their FaceExpr model, which was trained on 43,000 images.

arxiv情報

著者 Michael Stettler,Alexander Lappe,Nick Taubert,Martin Giese
発行日 2023-04-05 09:06:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク