Language-driven Object Fusion into Neural Radiance Fields with Pose-Conditioned Dataset Updates

要約

ニューラル放射輝度フィールドは、ニューラル シーン表現とボリューム レンダリングから高品質のマルチビュー一貫したイメージを生成する新しいレンダリング方法です。
神経放射輝度場ベースの技術はシーンの再構築には堅牢ですが、オブジェクトを追加または削除する能力は依然として制限されています。
この論文では、データセットの更新を通じて神経放射フィールドを使用したオブジェクト操作のための新しい言語駆動のアプローチを提案します。
具体的には、一連のマルチビュー画像で表される新しい前景オブジェクトを背景の放射輝度フィールドに挿入するために、テキストから画像への拡散モデルを使用して、対象のオブジェクトを特定の背景に融合する結合画像を学習および生成します。
ビュー。
これらの結合された画像は、背景の放射輝度フィールドを調整するために使用され、オブジェクトと背景の両方を含むビュー一貫性のある画像をレンダリングできます。
ビューの一貫性を確保するために、残りのビューにトレーニングを伝播する前に、すでにトレーニングされたビューに近いカメラ ビューでの放射フィールド トレーニングを優先するデータセット更新戦略を提案します。
同じデータセット更新戦略の下で、テキストから 3D モデルへのデータを使用したオブジェクトの挿入やオブジェクトの削除にも簡単に適応できることを示します。
実験結果は、私たちの方法が編集されたシーンのフォトリアリスティックな画像を生成し、3D 再構成とニューラル放射輝度フィールド ブレンディングにおいて最先端の方法よりも優れていることを示しています。

要約(オリジナル)

Neural radiance field is an emerging rendering method that generates high-quality multi-view consistent images from a neural scene representation and volume rendering. Although neural radiance field-based techniques are robust for scene reconstruction, their ability to add or remove objects remains limited. This paper proposes a new language-driven approach for object manipulation with neural radiance fields through dataset updates. Specifically, to insert a new foreground object represented by a set of multi-view images into a background radiance field, we use a text-to-image diffusion model to learn and generate combined images that fuse the object of interest into the given background across views. These combined images are then used for refining the background radiance field so that we can render view-consistent images containing both the object and the background. To ensure view consistency, we propose a dataset updates strategy that prioritizes radiance field training with camera views close to the already-trained views prior to propagating the training to remaining views. We show that under the same dataset updates strategy, we can easily adapt our method for object insertion using data from text-to-3D models as well as object removal. Experimental results show that our method generates photorealistic images of the edited scenes, and outperforms state-of-the-art methods in 3D reconstruction and neural radiance field blending.

arxiv情報

著者 Ka Chun Shum,Jaeyeon Kim,Binh-Son Hua,Duc Thanh Nguyen,Sai-Kit Yeung
発行日 2024-03-31 16:59:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク