要約
Generative Adversarial Networks (GAN) は、潜在空間を操作することで高品質の画像生成と実際の画像編集を行うための強力なツールとして登場しました。
GAN の最近の進歩には、単一の画像から 3D ジオメトリを再構築できる効率的なトリプレーンベースのアーキテクチャを特徴とする EG3D などの 3D 対応モデルが含まれます。
ただし、3D 対応の高品質なリファレンスベースの画像編集のための統合フレームワークの提供には、限定的な注意が払われてきました。
この研究では、高度な参照ベースの編集に対するトライプレーン スペースの有効性を調査および実証することで、このギャップに対処しています。
私たちの新しいアプローチは、エンコード、自動ローカリゼーション、トライプレーン フィーチャの空間的もつれ解除、および融合学習を統合して、目的の編集を実現します。
さらに、当社のフレームワークはさまざまな領域にわたって多用途性と堅牢性を実証しており、その有効性を動物の顔の編集、漫画の顔などの部分的に様式化された編集、全身の衣服の編集、および 360 度の頭部の編集にまで拡張します。
私たちの手法は、関連する潜在方向、テキスト、画像誘導の 2D および 3D 認識拡散および GAN 手法に対して、定性的および定量的に最先端のパフォーマンスを示します。
要約(オリジナル)
Generative Adversarial Networks (GANs) have emerged as powerful tools for high-quality image generation and real image editing by manipulating their latent spaces. Recent advancements in GANs include 3D-aware models such as EG3D, which feature efficient triplane-based architectures capable of reconstructing 3D geometry from single images. However, limited attention has been given to providing an integrated framework for 3D-aware, high-quality, reference-based image editing. This study addresses this gap by exploring and demonstrating the effectiveness of the triplane space for advanced reference-based edits. Our novel approach integrates encoding, automatic localization, spatial disentanglement of triplane features, and fusion learning to achieve the desired edits. Additionally, our framework demonstrates versatility and robustness across various domains, extending its effectiveness to animal face edits, partially stylized edits like cartoon faces, full-body clothing edits, and 360-degree head edits. Our method shows state-of-the-art performance over relevant latent direction, text, and image-guided 2D and 3D-aware diffusion and GAN methods, both qualitatively and quantitatively.
arxiv情報
著者 | Bahri Batuhan Bilecen,Yigit Yalin,Ning Yu,Aysegul Dundar |
発行日 | 2024-07-25 15:45:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google