A Compact and Semantic Latent Space for Disentangled and Controllable Image Editing

要約

生成モデル、特に敵対的生成ネットワーク (GAN) の分野における最近の進歩により、特に深層学習以前の時代と比較して、制御された画像編集が大幅に進歩しました。
これらのメソッドは、画像にリアルな変更を適用する強力な機能があるにもかかわらず、多くの場合、解きほぐし (属性を個別に編集する機能) などのプロパティが欠けています。
この論文では、編集したい各属性が新しい潜在空間の軸に対応するように、StyleGAN の潜在空間を再構成し、さらに潜在軸が無相関化されてもつれの解消を促進する自動エンコーダーを提案します。

主成分分析を使用して、潜在空間の圧縮バージョンで作業します。これは、オートエンコーダーのパラメーターの複雑さが軽減され、トレーニング時間が短縮されることを意味します ($\sim$ 45 分)。
定性的および定量的な結果は、同一性に関して元の画像への忠実性を維持しながら、競合する方法よりも優れたもつれの解消を実現する、私たちのアプローチの編集能力を示しています。
当社のオートエンコーダ アーキテクチャはシンプルかつ直接的で、実装が容易です。

要約(オリジナル)

Recent advances in the field of generative models and in particular generative adversarial networks (GANs) have lead to substantial progress for controlled image editing, especially compared with the pre-deep learning era. Despite their powerful ability to apply realistic modifications to an image, these methods often lack properties like disentanglement (the capacity to edit attributes independently). In this paper, we propose an auto-encoder which re-organizes the latent space of StyleGAN, so that each attribute which we wish to edit corresponds to an axis of the new latent space, and furthermore that the latent axes are decorrelated, encouraging disentanglement. We work in a compressed version of the latent space, using Principal Component Analysis, meaning that the parameter complexity of our autoencoder is reduced, leading to short training times ($\sim$ 45 mins). Qualitative and quantitative results demonstrate the editing capabilities of our approach, with greater disentanglement than competing methods, while maintaining fidelity to the original image with respect to identity. Our autoencoder architecture simple and straightforward, facilitating implementation.

arxiv情報

著者 Gwilherm Lesné,Yann Gousseau,Saïd Ladjal,Alasdair Newson
発行日 2023-12-13 16:18:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク