要約
我々は、3D ガウス スプラッティング (3DGS) によって再構成された 3D シーンを編集するテキスト駆動型の方法である GaussCtrl を提案します。
私たちの方法では、まず 3DGS を使用して画像のコレクションをレンダリングし、入力プロンプトに基づいて事前トレーニングされた 2D 拡散モデル (ControlNet) を使用して画像を編集します。その後、これを使用して 3D モデルを最適化します。
私たちの主な貢献は、マルチビューの一貫した編集です。これにより、以前の作品のように 3D モデルを更新しながら 1 つの画像を繰り返し編集するのではなく、すべての画像をまとめて編集できるようになります。
編集の高速化とビジュアル品質の向上につながります。
これは、次の 2 つの用語によって実現されます。(a) 自然に一貫した深度マップを活用して、マルチビュー画像全体で幾何学的一貫性を強制する深度条件付き編集。
(b) 画像の潜在表現間の自己およびビュー間の注意を通じて、編集画像をいくつかの参照ビューに条件付けすることにより、編集画像の外観を統一する注意ベースの潜在コード調整。
実験では、私たちの方法が以前の最先端の方法よりも高速な編集と優れた視覚的な結果を達成できることを示しています。
要約(オリジナル)
We propose GaussCtrl, a text-driven method to edit a 3D scene reconstructed by the 3D Gaussian Splatting (3DGS). Our method first renders a collection of images by using the 3DGS and edits them by using a pre-trained 2D diffusion model (ControlNet) based on the input prompt, which is then used to optimise the 3D model. Our key contribution is multi-view consistent editing, which enables editing all images together instead of iteratively editing one image while updating the 3D model as in previous works. It leads to faster editing as well as higher visual quality. This is achieved by the two terms: (a) depth-conditioned editing that enforces geometric consistency across multi-view images by leveraging naturally consistent depth maps. (b) attention-based latent code alignment that unifies the appearance of edited images by conditioning their editing to several reference views through self and cross-view attention between images’ latent representations. Experiments demonstrate that our method achieves faster editing and better visual results than previous state-of-the-art methods.
arxiv情報
著者 | Jing Wu,Jia-Wang Bian,Xinghui Li,Guangrun Wang,Ian Reid,Philip Torr,Victor Adrian Prisacariu |
発行日 | 2024-04-25 17:50:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google