Segment Anything in 3D with NeRFs

要約

タイトル:NeRFsを用いた3Dセグメンテーション
要約:

– Segment Anything Model (SAM)は、様々な2D画像中の任意の物体/パーツをセグメンテーションすることができることが示されているが、3Dセグメンテーションの能力は完全には探査されていない。
– 3Dデータへのアクセスの少なさと、その取得および注釈付けの高コストのため、SAMを3Dに昇格することは、課題であるが、価値のある研究分野である。
– この目的のために、我々はNeural Radiance Field(NeRF)モデルを用いた新しいフレームワークを提案することを提案する。これにより、1回の手動促進のみで、単一のレンダリングビューで任意のターゲットオブジェクトの3Dセグメンテーション結果を取得できるようになる。
– 入力の促進により、SAMは、対応するビューからターゲットオブジェクトを切り取る。得られた2Dセグメンテーションマスクは、密度による逆レンダリングによって3Dマスクグリッドに投影される。他のビューからの2Dマスクがレンダリングされ、完成していないことが多いが、SAMにフィードバックされ、自己促進として使用される。完全なマスクが得られ、マスクグリッドに投影される。
– この手順は反復的に実行され、最終的には厳密な3Dマスクが学習される。SA3Dは、追加の再設計なしに、様々な放射フィールドに効果的に適応することができる。全体のセグメンテーションプロセスは、エンジニアリング最適化なしで約2分で完了する。我々の実験は、異なるシーンでSA3Dの有効性を示し、SAMの3Dシーン認識への可能性を強調している。プロジェクトページは https://jumpat.github.io/SA3D/ にあります。

要約(オリジナル)

The Segment Anything Model (SAM) has demonstrated its effectiveness in segmenting any object/part in various 2D images, yet its ability for 3D has not been fully explored. The real world is composed of numerous 3D scenes and objects. Due to the scarcity of accessible 3D data and high cost of its acquisition and annotation, lifting SAM to 3D is a challenging but valuable research avenue. With this in mind, we propose a novel framework to Segment Anything in 3D, named SA3D. Given a neural radiance field (NeRF) model, SA3D allows users to obtain the 3D segmentation result of any target object via only one-shot manual prompting in a single rendered view. With input prompts, SAM cuts out the target object from the according view. The obtained 2D segmentation mask is projected onto 3D mask grids via density-guided inverse rendering. 2D masks from other views are then rendered, which are mostly uncompleted but used as cross-view self-prompts to be fed into SAM again. Complete masks can be obtained and projected onto mask grids. This procedure is executed via an iterative manner while accurate 3D masks can be finally learned. SA3D can adapt to various radiance fields effectively without any additional redesigning. The entire segmentation process can be completed in approximately two minutes without any engineering optimization. Our experiments demonstrate the effectiveness of SA3D in different scenes, highlighting the potential of SAM in 3D scene perception. The project page is at https://jumpat.github.io/SA3D/.

arxiv情報

著者 Jiazhong Cen,Zanwei Zhou,Jiemin Fang,Wei Shen,Lingxi Xie,Dongsheng Jiang,Xiaopeng Zhang,Qi Tian
発行日 2023-04-26 05:47:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク