要約
ニューラル フィールド (NeRF) は、連続 3D シーンを表現するための有望なアプローチとして浮上しています。
それにもかかわらず、NeRF にはセマンティック エンコーディングが欠如しているため、シーンの分解には大きな課題が生じています。
この課題に対処するために、テキスト ベースとビジュアル パッチ ベースの両方の編集が可能な単一モデル、マルチモーダル分解 NeRF (${M^2D}$NeRF) を紹介します。
具体的には、マルチモーダル特徴抽出を使用して、事前トレーニングされた視覚モデルおよび言語モデルからの教師特徴を 3D セマンティック特徴ボリュームに統合し、それによって一貫した 3D 編集を容易にします。
3D フィーチャー ボリューム内の視覚的フィーチャーと言語フィーチャー間の一貫性を強制するために、マルチモーダル類似性制約を導入します。
また、3D フィーチャ空間内でオブジェクト領域の合体を促進し、より正確な境界を生成するのに役立つパッチベースの結合コントラスト損失も導入します。
さまざまな現実世界のシーンでの実験では、以前の NeRF ベースの方法と比較して、3D シーン分解タスクで優れたパフォーマンスを示しています。
要約(オリジナル)
Neural fields (NeRF) have emerged as a promising approach for representing continuous 3D scenes. Nevertheless, the lack of semantic encoding in NeRFs poses a significant challenge for scene decomposition. To address this challenge, we present a single model, Multi-Modal Decomposition NeRF (${M^2D}$NeRF), that is capable of both text-based and visual patch-based edits. Specifically, we use multi-modal feature distillation to integrate teacher features from pretrained visual and language models into 3D semantic feature volumes, thereby facilitating consistent 3D editing. To enforce consistency between the visual and language features in our 3D feature volumes, we introduce a multi-modal similarity constraint. We also introduce a patch-based joint contrastive loss that helps to encourage object-regions to coalesce in the 3D feature space, resulting in more precise boundaries. Experiments on various real-world scenes show superior performance in 3D scene decomposition tasks compared to prior NeRF-based methods.
arxiv情報
著者 | Ning Wang,Lefei Zhang,Angel X Chang |
発行日 | 2024-05-08 12:25:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google