VecGAN: Image-to-Image Translation with Interpretable Latent Directions

要約

解釈可能な潜在的な方向を使用した顔の属性編集のための画像から画像への変換フレームワークであるVecGANを提案します。
顔の属性編集タスクは、画像の他の属性の制御可能な強度と保存を備えた正確な属性編集の課題に直面しています。
この目標のために、潜在空間因数分解による属性編集を設計し、各属性について、他の属性に直交する線形方向を学習します。
もう1つの要素は、変更の制御可能な強度であるスカラー値です。
私たちのフレームワークでは、このスカラーは、投影によって参照画像からサンプリングまたはエンコードすることができます。
私たちの仕事は、固定された事前訓練されたGANの潜在的な空間因数分解の仕事に触発されています。
ただし、これらのモデルをエンドツーエンドでトレーニングすることはできず、エンコードされた画像を正確に編集するのに苦労しますが、VecGANは画像変換タスクについてエンドツーエンドでトレーニングされ、他のモデルを保持しながら属性の編集に成功します。
私たちの広範な実験は、VecGANがローカル編集とグローバル編集の両方で最先端技術よりも大幅に改善されていることを示しています。

要約(オリジナル)

We propose VecGAN, an image-to-image translation framework for facial attribute editing with interpretable latent directions. Facial attribute editing task faces the challenges of precise attribute editing with controllable strength and preservation of the other attributes of an image. For this goal, we design the attribute editing by latent space factorization and for each attribute, we learn a linear direction that is orthogonal to the others. The other component is the controllable strength of the change, a scalar value. In our framework, this scalar can be either sampled or encoded from a reference image by projection. Our work is inspired by the latent space factorization works of fixed pretrained GANs. However, while those models cannot be trained end-to-end and struggle to edit encoded images precisely, VecGAN is end-to-end trained for image translation task and successful at editing an attribute while preserving the others. Our extensive experiments show that VecGAN achieves significant improvements over state-of-the-arts for both local and global edits.

arxiv情報

著者 Yusuf Dalva,Said Fahri Altindis,Aysegul Dundar
発行日 2022-07-07 16:31:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク