WEM-GAN: Wavelet transform based facial expression manipulation

要約

表情操作は、顔認識に影響を与えることなく人間の表情を変化させることを目的としている。顔の表情を目的の表情に変換するために、これまでの方法は、操作プロセスを導くために表情ラベルに依存していました。しかし、これらの手法では、顔の特徴の詳細を保持することができず、出力画像における識別情報の弱体化や喪失を引き起こしていました。本研究では、WEM-GAN(ウェーブレットベース表情操作GAN)を提案する。第一に、我々はウェーブレット変換技術を利用し、それをUネットオートエンコーダバックボーンを持つ我々のジェネレータと組み合わせることで、ジェネレータの顔の特徴をより詳細に保存する能力を向上させる。第二に、高周波数成分識別器を実装し、高周波数領域の敵対的損失を使用して、モデルの最適化をさらに制約し、生成される顔画像により豊富なディテールを提供する。さらに、生成された表情とターゲット表情の間のギャップを縮めるために、エンコーダとデコーダ間の残差接続を利用し、相対アクションユニット(AU)も複数回利用する。広範な定性的および定量的実験により、我々のモデルは、AffectNetデータセットにおいて、アイデンティティ特徴、編集能力、および画像生成品質を保持する上で優れた性能を示すことが実証された。また、平均コンテンツ距離(ACD)や表現距離(ED)などのメトリクスにおいても優れた性能を示す。

要約(オリジナル)

Facial expression manipulation aims to change human facial expressions without affecting face recognition. In order to transform the facial expressions to target expressions, previous methods relied on expression labels to guide the manipulation process. However, these methods failed to preserve the details of facial features, which causes the weakening or the loss of identity information in the output image. In our work, we propose WEM-GAN, in short for wavelet-based expression manipulation GAN, which puts more efforts on preserving the details of the original image in the editing process. Firstly, we take advantage of the wavelet transform technique and combine it with our generator with a U-net autoencoder backbone, in order to improve the generator’s ability to preserve more details of facial features. Secondly, we also implement the high-frequency component discriminator, and use high-frequency domain adversarial loss to further constrain the optimization of our model, providing the generated face image with more abundant details. Additionally, in order to narrow the gap between generated facial expressions and target expressions, we use residual connections between encoder and decoder, while also using relative action units (AUs) several times. Extensive qualitative and quantitative experiments have demonstrated that our model performs better in preserving identity features, editing capability, and image generation quality on the AffectNet dataset. It also shows superior performance in metrics such as Average Content Distance (ACD) and Expression Distance (ED).

arxiv情報

著者 Dongya Sun,Yunfei Hu,Xianzhe Zhang,Yingsong Hu
発行日 2024-12-03 16:23:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, eess.IV パーマリンク