要約
拡散モデルの最近の進歩により、テキスト プロンプトに基づいて 2D 画像を編集する際の顕著な熟練が示されています。
ただし、これらのテクニックを Neural Radiance Fields (NeRF) でシーンを編集するように拡張することは、個々の 2D フレームを編集すると複数のビュー間で不一致が生じる可能性があるため、複雑になります。
私たちの重要な洞察は、NeRF シーンのジオメトリがこれらの 2D 編集を統合するためのブリッジとして機能できるということです。
このジオメトリを利用して、深さ条件付き ControlNet を使用して、各 2D 画像変更の一貫性を強化します。
さらに、NeRF シーンの深度情報を活用して 2D 編集をさまざまな画像に分散する修復アプローチを導入し、エラーやリサンプリングの課題に対する堅牢性を確保します。
私たちの結果は、この方法論がテキスト駆動型 NeRF シーン編集の既存の主要な方法よりも、より一貫性があり、リアルで詳細な編集を実現できることを明らかにしました。
要約(オリジナル)
Recent advancements in diffusion models have shown remarkable proficiency in editing 2D images based on text prompts. However, extending these techniques to edit scenes in Neural Radiance Fields (NeRF) is complex, as editing individual 2D frames can result in inconsistencies across multiple views. Our crucial insight is that a NeRF scene’s geometry can serve as a bridge to integrate these 2D edits. Utilizing this geometry, we employ a depth-conditioned ControlNet to enhance the coherence of each 2D image modification. Moreover, we introduce an inpainting approach that leverages the depth information of NeRF scenes to distribute 2D edits across different images, ensuring robustness against errors and resampling challenges. Our results reveal that this methodology achieves more consistent, lifelike, and detailed edits than existing leading methods for text-driven NeRF scene editing.
arxiv情報
著者 | Sara Rojas,Julien Philip,Kai Zhang,Sai Bi,Fujun Luan,Bernard Ghanem,Kalyan Sunkavall |
発行日 | 2024-08-01 11:17:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google