Reference-Based 3D-Aware Image Editing with Triplanes

要約

生成的敵対ネットワーク(GAN)は、潜在スペースを操作することにより、高品質の画像生成と実際の画像編集のための強力なツールとして浮上しています。
GANの最近の進歩には、EG3Dなどの3Dアウェアモデルが含まれています。EG3Dには、単一の画像から3Dジオメトリを再構築できる効率的なトリプレーベースのアーキテクチャが備えています。
ただし、3Dが認識し、高品質の参照ベースの画像編集のための統合フレームワークを提供することには、限られた注意が払われています。
この研究では、高度な参照ベースの編集のためのトリプレーン空間の有効性を調査および実証することにより、このギャップに対処します。
私たちの斬新なアプローチは、エンコード、自動ローカリゼーション、トリプレーン機能の空間的解体、および望ましい編集を実現するための融合学習を統合します。
私たちのアプローチが、人間の顔、360度の頭、動物の顔、漫画の顔、フルボディの衣類の編集、クラスにとらわれないサンプルの編集などの部分的に様式化された編集を含む多様なドメインでどのように優れているかを示します。
私たちの方法では、関連する潜在的方向、テキスト、画像ガイド付きの2Dおよび3Dに認識された拡散およびGANメソッドの両方で、定性的および定量的に最先端のパフォーマンスを示しています。

要約(オリジナル)

Generative Adversarial Networks (GANs) have emerged as powerful tools for high-quality image generation and real image editing by manipulating their latent spaces. Recent advancements in GANs include 3D-aware models such as EG3D, which feature efficient triplane-based architectures capable of reconstructing 3D geometry from single images. However, limited attention has been given to providing an integrated framework for 3D-aware, high-quality, reference-based image editing. This study addresses this gap by exploring and demonstrating the effectiveness of the triplane space for advanced reference-based edits. Our novel approach integrates encoding, automatic localization, spatial disentanglement of triplane features, and fusion learning to achieve the desired edits. We demonstrate how our approach excels across diverse domains, including human faces, 360-degree heads, animal faces, partially stylized edits like cartoon faces, full-body clothing edits, and edits on class-agnostic samples. Our method shows state-of-the-art performance over relevant latent direction, text, and image-guided 2D and 3D-aware diffusion and GAN methods, both qualitatively and quantitatively.

arxiv情報

著者 Bahri Batuhan Bilecen,Yigit Yalin,Ning Yu,Aysegul Dundar
発行日 2025-04-15 17:56:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク