3D GAN Inversion with Pose Optimization

要約

NeRF ベースの 3D 認識 GAN 品質の最近の進歩により、これらの 3D 認識 GAN の潜在空間に画像を投影することは、2D GAN 反転よりも自然な利点があります。
しかし、単一の画像のみが与えられた場合、3D 再構成と新しいビュー合成も可能になります。
ただし、明示的な視点制御は、与えられた画像を再構築するためにカメラの姿勢と潜在コードの両方を同時に最適化する必要があるため、3D GAN 反転プロセスの主な障害として機能します。
3D 認識 GAN の潜在空間を探索するほとんどの作品は、グラウンド トゥルース カメラ視点または変形可能な 3D モデルに依存しているため、適用性が制限されます。
この作業では、カメラの視点と潜在的なコードを同時に推論して、マルチビューの一貫したセマンティックな画像編集を可能にする、一般化可能な 3D GAN インバージョン メソッドを導入します。
私たちのアプローチの鍵は、事前トレーニング済みの推定器を活用して初期化を改善し、NeRF パラメーターから計算されたピクセル単位の深度を利用して、特定の画像をより適切に再構築することです。
画像の再構成と編集に関する広範な実験を定量的および定性的に行い、さらに結果を 2D GAN ベースの編集と比較して、3D GAN の潜在空間を利用する利点を実証します。
追加の結果と視覚化は、https://3dgan-inversion.github.io で入手できます。

要約(オリジナル)

With the recent advances in NeRF-based 3D aware GANs quality, projecting an image into the latent space of these 3D-aware GANs has a natural advantage over 2D GAN inversion: not only does it allow multi-view consistent editing of the projected image, but it also enables 3D reconstruction and novel view synthesis when given only a single image. However, the explicit viewpoint control acts as a main hindrance in the 3D GAN inversion process, as both camera pose and latent code have to be optimized simultaneously to reconstruct the given image. Most works that explore the latent space of the 3D-aware GANs rely on ground-truth camera viewpoint or deformable 3D model, thus limiting their applicability. In this work, we introduce a generalizable 3D GAN inversion method that infers camera viewpoint and latent code simultaneously to enable multi-view consistent semantic image editing. The key to our approach is to leverage pre-trained estimators for better initialization and utilize the pixel-wise depth calculated from NeRF parameters to better reconstruct the given image. We conduct extensive experiments on image reconstruction and editing both quantitatively and qualitatively, and further compare our results with 2D GAN-based editing to demonstrate the advantages of utilizing the latent space of 3D GANs. Additional results and visualizations are available at https://3dgan-inversion.github.io .

arxiv情報

著者 Jaehoon Ko,Kyusun Cho,Daewon Choi,Kwangrok Ryoo,Seungryong Kim
発行日 2022-10-17 12:53:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク