Blended-NeRF: Zero-Shot Object Generation and Blending in Existing Neural Radiance Fields

要約

NeRF によって表される 3D シーン内のローカル領域または特定のオブジェクトを編集することは、主にシーン表現の暗黙的な性質により困難です。
新しいリアルなオブジェクトをシーンに一貫してブレンドすると、さらに難易度が上がります。
テキスト プロンプトまたは画像パッチと 3D ROI ボックスに基づいて、既存の NeRF シーン内の特定の関心領域を編集するための堅牢で柔軟なフレームワークである Blended-NeRF を紹介します。
私たちの手法では、事前トレーニング済みの言語イメージ モデルを利用して、ユーザーが提供するテキスト プロンプトまたはイメージ パッチに向けて合成を誘導します。また、既存の NeRF シーンで初期化された 3D MLP モデルを利用してオブジェクトを生成し、それをオリジナルの指定された領域にブレンドします。
シーン。
入力シーン内の 3D ROI ボックスをローカライズすることでローカル編集を可能にし、新しいボリューム ブレンディング技術を使用して ROI 内で合成されたコンテンツを既存のシーンとシームレスにブレンドします。
自然な外観とビュー一貫性のある結果を得るために、既存および新しい幾何学的事前分布と 3D 拡張を活用して、最終結果の視覚的な忠実度を向上させます。
私たちは、さまざまな実際の 3D シーンとテキスト プロンプトでフレームワークを定性的および定量的の両方でテストし、ベースラインと比較して柔軟性と多様性に富んだ現実的なマルチビューの一貫した結果を実証します。
最後に、シーンへの新しいオブジェクトの追加、既存のオブジェクトの削除/置換/変更、テクスチャ変換など、いくつかの 3D 編集アプリケーションに対するフレームワークの適用性を示します。

要約(オリジナル)

Editing a local region or a specific object in a 3D scene represented by a NeRF is challenging, mainly due to the implicit nature of the scene representation. Consistently blending a new realistic object into the scene adds an additional level of difficulty. We present Blended-NeRF, a robust and flexible framework for editing a specific region of interest in an existing NeRF scene, based on text prompts or image patches, along with a 3D ROI box. Our method leverages a pretrained language-image model to steer the synthesis towards a user-provided text prompt or image patch, along with a 3D MLP model initialized on an existing NeRF scene to generate the object and blend it into a specified region in the original scene. We allow local editing by localizing a 3D ROI box in the input scene, and seamlessly blend the content synthesized inside the ROI with the existing scene using a novel volumetric blending technique. To obtain natural looking and view-consistent results, we leverage existing and new geometric priors and 3D augmentations for improving the visual fidelity of the final result. We test our framework both qualitatively and quantitatively on a variety of real 3D scenes and text prompts, demonstrating realistic multi-view consistent results with much flexibility and diversity compared to the baselines. Finally, we show the applicability of our framework for several 3D editing applications, including adding new objects to a scene, removing/replacing/altering existing objects, and texture conversion.

arxiv情報

著者 Ori Gordon,Omri Avrahami,Dani Lischinski
発行日 2023-06-22 09:34:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG パーマリンク