要約
テキスト命令による 3D 編集のための、ビュー一貫性を意識した初の方法である ViCA-NeRF を紹介します。
暗黙的神経放射場 (NeRF) モデリングに加えて、私たちの重要な洞察は、異なるビュー間で編集情報を明示的に伝播し、マルチビューの一貫性を確保する 2 つの正則化ソースを活用することです。
幾何学的正則化では、NeRF から得られた深度情報を利用して、異なるビュー間の画像の対応関係を確立します。
学習された正則化では、編集済み画像と未編集画像の間で 2D 拡散モデル内の潜在コードを調整し、主要なビューを編集してシーン全体に更新を伝播できるようにします。
これら 2 つの戦略を組み込んで、当社の ViCA-NeRF は 2 段階で動作します。
最初の段階では、さまざまなビューからの編集をブレンドして、予備的な 3D 編集を作成します。
これに続いて、シーンの外観をさらに洗練することに専念する NeRF トレーニングの第 2 段階が続きます。
実験結果は、ViCA-NeRF が最新技術と比較して、より高いレベルの一貫性と詳細を備えた、より柔軟で効率的な (3 倍高速な) 編集を提供することを示しています。
私たちのコードは公開されています。
要約(オリジナル)
We introduce ViCA-NeRF, the first view-consistency-aware method for 3D editing with text instructions. In addition to the implicit neural radiance field (NeRF) modeling, our key insight is to exploit two sources of regularization that explicitly propagate the editing information across different views, thus ensuring multi-view consistency. For geometric regularization, we leverage the depth information derived from NeRF to establish image correspondences between different views. For learned regularization, we align the latent codes in the 2D diffusion model between edited and unedited images, enabling us to edit key views and propagate the update throughout the entire scene. Incorporating these two strategies, our ViCA-NeRF operates in two stages. In the initial stage, we blend edits from different views to create a preliminary 3D edit. This is followed by a second stage of NeRF training, dedicated to further refining the scene’s appearance. Experimental results demonstrate that ViCA-NeRF provides more flexible, efficient (3 times faster) editing with higher levels of consistency and details, compared with the state of the art. Our code is publicly available.
arxiv情報
| 著者 | Jiahua Dong,Yu-Xiong Wang |
| 発行日 | 2024-02-01 18:59:09+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google