GaussianEditor: Editing 3D Gaussians Delicately with Text Instructions

要約

最近、2D 拡散モデルに基づいたテキスト指示による 3D シーン編集で素晴らしい結果が達成されました。
しかし、現在の拡散モデルは主に潜在空間内のノイズを予測することによって画像を生成し、編集は通常画像全体に適用されるため、3D シーンに対して繊細な、特に局所的な編集を実行することが困難になります。
最近の 3D ガウス スプラッティングに触発されて、テキスト命令を含む 3D ガウスを介して 3D シーンを繊細に編集するための、GaussianEditor という体系的なフレームワークを提案します。
3D ガウスの明示的な特性を利用して、繊細な編集を実現する一連のテクニックを設計します。
具体的には、まずテキスト命令に対応する関心領域 (RoI) を抽出し、それを 3D ガウス分布に位置合わせします。
ガウス RoI は、編集プロセスを制御するためにさらに使用されます。
私たちのフレームワークは、以前の方法よりもさらに繊細で正確な 3D シーンの編集を達成できると同時に、はるかに高速なトレーニング速度を実現できます。つまり、単一の V100 GPU で 20 分以内であり、Instruct-NeRF2NeRF (45 分 – 2 時間) の 2 倍以上の速さです。

要約(オリジナル)

Recently, impressive results have been achieved in 3D scene editing with text instructions based on a 2D diffusion model. However, current diffusion models primarily generate images by predicting noise in the latent space, and the editing is usually applied to the whole image, which makes it challenging to perform delicate, especially localized, editing for 3D scenes. Inspired by recent 3D Gaussian splatting, we propose a systematic framework, named GaussianEditor, to edit 3D scenes delicately via 3D Gaussians with text instructions. Benefiting from the explicit property of 3D Gaussians, we design a series of techniques to achieve delicate editing. Specifically, we first extract the region of interest (RoI) corresponding to the text instruction, aligning it to 3D Gaussians. The Gaussian RoI is further used to control the editing process. Our framework can achieve more delicate and precise editing of 3D scenes than previous methods while enjoying much faster training speed, i.e. within 20 minutes on a single V100 GPU, more than twice as fast as Instruct-NeRF2NeRF (45 minutes — 2 hours).

arxiv情報

著者 Junjie Wang,Jiemin Fang,Xiaopeng Zhang,Lingxi Xie,Qi Tian
発行日 2024-07-24 13:16:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク