OpenNeRF: Open Set 3D Neural Scene Segmentation with Pixel-Wise Features and Rendered Novel Views

要約

CLIPのような大規模な視覚言語モデル(VLM)は、画像から任意の概念をゼロショットでセグメンテーションするオープンセット画像セグメンテーションを可能にする。これは、従来のクローズドセットの仮定、すなわち、モデルが事前に定義された学習セットからしかクラスをセグメンテーションできないという仮定を超えるものである。より最近では、3Dシーンにおけるオープンセットセグメンテーションに関する最初の研究が文献に登場している。これらの手法は、点群やポリゴンメッシュを処理するクローズドセット3D畳み込みアプローチに大きな影響を受けている。しかし、これらの3Dシーン表現は、視覚言語モデルの画像ベースの性質とうまく整合していない。実際、点群や3Dメッシュは一般的に画像よりも解像度が低く、再構成された3Dシーン形状は、ピクセル整列されたCLIP特徴を計算するために使用される基礎となる2D画像シーケンスにうまく投影されない可能性がある。このような課題に対処するため、我々は、ポーズ画像上で自然に動作し、NeRF内にVLM特徴を直接エンコードするOpenNeRFを提案する。これはLERFと精神的に似ていますが、我々の研究は、(グローバルCLIP特徴の代わりに)ピクセル単位のVLM特徴を使用することで、追加のDINO正則化を必要とせず、全体的に複雑でないアーキテクチャになることを示しています。我々のOpenNeRFはさらに、NeRFの新しいビューをレンダリングする能力を活用し、最初のポーズ画像ではよく観察されない領域からオープンセットのVLM特徴を抽出する。Replicaデータセットの3D点群セグメンテーションにおいて、OpenNeRFはLERFやOpenSceneのような最近のオープンボキャブラリーメソッドを少なくとも+4.9mIoU上回った。

要約(オリジナル)

Large visual-language models (VLMs), like CLIP, enable open-set image segmentation to segment arbitrary concepts from an image in a zero-shot manner. This goes beyond the traditional closed-set assumption, i.e., where models can only segment classes from a pre-defined training set. More recently, first works on open-set segmentation in 3D scenes have appeared in the literature. These methods are heavily influenced by closed-set 3D convolutional approaches that process point clouds or polygon meshes. However, these 3D scene representations do not align well with the image-based nature of the visual-language models. Indeed, point cloud and 3D meshes typically have a lower resolution than images and the reconstructed 3D scene geometry might not project well to the underlying 2D image sequences used to compute pixel-aligned CLIP features. To address these challenges, we propose OpenNeRF which naturally operates on posed images and directly encodes the VLM features within the NeRF. This is similar in spirit to LERF, however our work shows that using pixel-wise VLM features (instead of global CLIP features) results in an overall less complex architecture without the need for additional DINO regularization. Our OpenNeRF further leverages NeRF’s ability to render novel views and extract open-set VLM features from areas that are not well observed in the initial posed images. For 3D point cloud segmentation on the Replica dataset, OpenNeRF outperforms recent open-vocabulary methods such as LERF and OpenScene by at least +4.9 mIoU.

arxiv情報

著者 Francis Engelmann,Fabian Manhardt,Michael Niemeyer,Keisuke Tateno,Marc Pollefeys,Federico Tombari
発行日 2024-04-04 17:59:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク