DGE: Direct Gaussian 3D Editing by Consistent Multi-view Editing

要約

私たちは、オープンエンドの言語指示に基づいて 3D オブジェクトとシーンを編集する問題を検討します。
この問題を解決するために確立されたパラダイムは、2D 画像ジェネレーターまたはエディターを使用して 3D 編集プロセスをガイドすることです。
ただし、これは、神経放射フィールドなどの計算コストのかかる 3D 表現を更新する必要があり、本質的にマルチビューの一貫性がない 2D モデルからの矛盾したガイダンスを使用して更新する必要があるため、遅くなることがよくあります。
そこで、これらの問題に 2 つの方法で対処する方法である Direct Gaussian Editor (DGE) を紹介します。
まず、InstructPix2Pix などの特定の高品質画像エディターをマルチビューの一貫性を保つように変更します。
これは、シーンの基礎となる 3D ジオメトリからの手がかりを統合する、トレーニング不要のアプローチを利用することで実現されます。
第 2 に、マルチビューで一貫して編集されたオブジェクトの画像シーケンスが与えられると、3D ガウス スプラッティングに基づいて 3D オブジェクト表現を直接かつ効率的に最適化します。
DGE は編集を段階的かつ反復的に適用する必要がないため、既存のアプローチよりも大幅に効率的であり、シーンの一部を選択的に編集できるなどの利点もあります。

要約(オリジナル)

We consider the problem of editing 3D objects and scenes based on open-ended language instructions. The established paradigm to solve this problem is to use a 2D image generator or editor to guide the 3D editing process. However, this is often slow as it requires do update a computationally expensive 3D representations such as a neural radiance field, and to do so by using contradictory guidance from a 2D model which is inherently not multi-view consistent. We thus introduce the Direct Gaussian Editor (DGE), a method that addresses these issues in two ways. First, we modify a given high-quality image editor like InstructPix2Pix to be multi-view consistent. We do so by utilizing a training-free approach which integrates cues from the underlying 3D geometry of the scene. Second, given a multi-view consistent edited sequence of images of the object, we directly and efficiently optimize the 3D object representation, which is based on 3D Gaussian Splatting. Because it does not require to apply edits incrementally and iteratively, DGE is significantly more efficient than existing approaches, and comes with other perks such as allowing selective editing of parts of the scene.

arxiv情報

著者 Minghao Chen,Iro Laina,Andrea Vedaldi
発行日 2024-04-29 17:59:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク