顔表情認識(FER)は、コンピュータビジョンのユビキタスな応用において重要な役割を担っている。我々は、画像生成過程においてFERの性能を向上させる有用な表現を獲得できるかという新しい視点でこの問題を再考し、FERタスクのための画像反転機構に基づく新しい生成手法(反転FER(IFER)と呼ぶ)を提案します。特に、生成された顔画像の特徴を網羅的に抽出するために、IFERに向けた新しいAdversarial Style Inversion Transformer (ASIT)を考案しています。また、ASITは、分布整列損失の制約を受けながら、元画像と生成画像間の意味的特徴のコサイン類似度を測定する画像反転識別器を備えている。最後に、ASITから得られた構造コードと潜在コードを融合し、後続のFER作業を行うための特徴変調モジュールを導入する。我々はASITをFFHQやCelebA-HQなどの顔データセットで広範囲に評価し、我々のアプローチが最先端の顔反転性能を達成することを示す。また、IFERはRAF-DB、SFEW、AffectNetなどの表情認識データセットにおいて競争力のある結果を達成しています。コードとモデルは https://github.com/Talented-Q/IFER-master で公開されています。
Facial expression recognition (FER) plays a significant role in the ubiquitous application of computer vision. We revisit this problem with a new perspective on whether it can acquire useful representations that improve FER performance in the image generation process, and propose a novel generative method based on the image inversion mechanism for the FER task, termed Inversion FER (IFER). Particularly, we devise a novel Adversarial Style Inversion Transformer (ASIT) towards IFER to comprehensively extract features of generated facial images. In addition, ASIT is equipped with an image inversion discriminator that measures the cosine similarity of semantic features between source and generated images, constrained by a distribution alignment loss. Finally, we introduce a feature modulation module to fuse the structural code and latent codes from ASIT for the subsequent FER work. We extensively evaluate ASIT on facial datasets such as FFHQ and CelebA-HQ, showing that our approach achieves state-of-the-art facial inversion performance. IFER also achieves competitive results in facial expression recognition datasets such as RAF-DB, SFEW and AffectNet. The code and models are available at https://github.com/Talented-Q/IFER-master.
著者 | Jiawei Mao,Guangyi Zhao,Yuanqi Chang,Xuesong Yin,Xiaogang Peng,Rui Xu |
発行日 | 2023-01-03 09:03:08+00:00 |
arxivサイト | arxiv_id(pdf) |