SARGAN: Spatial Attention-based Residuals for Facial Expression Manipulation




– 顔の操作のための生成的対抗的ネットワークのジェネレーターでエンコーダー・デコーダーをベースとしたアーキテクチャが広く使われています。
– しかしながら、現在のアーキテクチャは、入力画像の色、肌の色や質感などの豊かな顔の詳細を取り戻すことができず、またアーティファクトを導入してしまいます。
– 本論文では、これらの問題を3つの観点から解決する新しい方法「SARGAN」を提案します。
– まず、他の特徴を変更せずに、変更する必要のある表情関連の特徴を適切に捕捉するために、バニラの残差ブロックではなく、空間的注意ベースの残差ブロックを使用しました。
– 第二に、多くのスケールで顔の特徴に注意を払うために、対称的なエンコーダー・デコーダー・ネットワークを活用しました。
– 第三に、ジェネレータを圧力から解放するために、入力の顔画像を直接フィードして望ましい表情を生成するように演習コネクションで完全なネットワークをトレーニングすることを提案しました。
– 定量的・定性的な実験結果の両方が、我々の提案モデルが最先端の方法よりも遥かに優れていることを示しています。
– さらに、既存のモデルはより大きなデータセットを必要とし、アウト・オブ・ディストリビューション・イメージでも性能が低下しますが、SARGANは小さな顔の表情データセットでトレーニングが可能であり、人間の写真や、肖像画、アバターや像など、アウト・オブ・ディストリビューション・イメージにおいても一般化能力があります。


Encoder-decoder based architecture has been widely used in the generator of generative adversarial networks for facial manipulation. However, we observe that the current architecture fails to recover the input image color, rich facial details such as skin color or texture and introduces artifacts as well. In this paper, we present a novel method named SARGAN that addresses the above-mentioned limitations from three perspectives. First, we employed spatial attention-based residual block instead of vanilla residual blocks to properly capture the expression-related features to be changed while keeping the other features unchanged. Second, we exploited a symmetric encoder-decoder network to attend facial features at multiple scales. Third, we proposed to train the complete network with a residual connection which relieves the generator of pressure to generate the input face image thereby producing the desired expression by directly feeding the input image towards the end of the generator. Both qualitative and quantitative experimental results show that our proposed model performs significantly better than state-of-the-art methods. In addition, existing models require much larger datasets for training but their performance degrades on out-of-distribution images. In contrast, SARGAN can be trained on smaller facial expressions datasets, which generalizes well on out-of-distribution images including human photographs, portraits, avatars and statues.


著者 Arbish Akram,Nazar Khan
発行日 2023-03-30 08:15:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.CV パーマリンク