要約
最近の3D対応GANは、物体の姿勢と外観を分離するためにボリュームレンダリング技術に依存しており、事実上、潜在コードからシングルビューの2D画像ではなく、3Dボリューム全体を生成しています。複雑な画像編集作業は、標準的な2DベースのGAN(例えば、StyleGANモデル)において、潜在的な次元の操作として実行することが可能である。しかし、我々の知る限り、3Dを意識したGANモデルについては、同様の性質が部分的にしか調べられていない。本研究では、既存の手法の限界を示し、モデルに依存しないアプローチであるLatentSwap3Dを提案することで、このギャップを埋めることを目的とする。これは、事前に学習した3D認識GANの潜在空間における属性編集を可能にするために設計されたアプローチである。まず、ランダムフォレスト分類器の特徴重要度ランキングに基づき、対象となる属性を制御するモデルの潜在空間において最も関連性の高い次元を特定する。そして、編集中の画像の潜在的な次元のうち、最も関連性の高い上位K個の次元を、目的の属性を持つ画像と入れ替えることで変換を行う。LatentSwap3Dは、その単純さにもかかわらず、分離された方法で顕著な意味編集を提供し、定性的にも定量的にも他のアプローチを凌駕しています。我々は、πGAN、GIRAFFE、StyleSDF、MVCGAN、EG3D、VolumeGANなどの様々な3次元認識生成モデルや、FFHQ、AFHQ、Cats、MetFaces、CompCarsなどの多様なデータセットで、我々の意味編集アプローチの実証を行っています。プロジェクトのページはこちらです。\をご覧ください。
要約(オリジナル)
Recent 3D-aware GANs rely on volumetric rendering techniques to disentangle the pose and appearance of objects, de facto generating entire 3D volumes rather than single-view 2D images from a latent code. Complex image editing tasks can be performed in standard 2D-based GANs (e.g., StyleGAN models) as manipulation of latent dimensions. However, to the best of our knowledge, similar properties have only been partially explored for 3D-aware GAN models. This work aims to fill this gap by showing the limitations of existing methods and proposing LatentSwap3D, a model-agnostic approach designed to enable attribute editing in the latent space of pre-trained 3D-aware GANs. We first identify the most relevant dimensions in the latent space of the model controlling the targeted attribute by relying on the feature importance ranking of a random forest classifier. Then, to apply the transformation, we swap the top-K most relevant latent dimensions of the image being edited with an image exhibiting the desired attribute. Despite its simplicity, LatentSwap3D provides remarkable semantic edits in a disentangled manner and outperforms alternative approaches both qualitatively and quantitatively. We demonstrate our semantic edit approach on various 3D-aware generative models such as pi-GAN, GIRAFFE, StyleSDF, MVCGAN, EG3D and VolumeGAN, and on diverse datasets, such as FFHQ, AFHQ, Cats, MetFaces, and CompCars. The project page can be found: \url{https://enisimsar.github.io/latentswap3d/}.
arxiv情報
著者 | Enis Simsar,Alessio Tonioni,Evin Pınar Örnek,Federico Tombari |
発行日 | 2022-12-02 18:59:51+00:00 |
arxivサイト | arxiv_id(pdf) |