EmbodiedSAM: Online Segment Any 3D Thing in Real Time

要約

具現化されたタスクでは、エージェントが探索と同時に 3D シーンを完全に理解する必要があるため、オンライン、リアルタイム、きめ細かく高度に一般化された 3D 認識モデルが切実に必要とされています。
高品質の 3D データは限られているため、そのようなモデルを 3D で直接トレーニングすることはほとんど不可能です。
一方、ビジョン ファウンデーション モデル (VFM) は、優れたパフォーマンスで 2D コンピューター ビジョンの分野に革命をもたらし、VFM を使用して具体的な 3D 認識を支援することが有望な方向性となっています。
しかし、既存の VFM 支援 3D 認識方法のほとんどは、オフラインであるか、遅すぎるため、実際の具体化されたタスクに適用できません。
このペーパーでは、オンライン設定でリアルタイム 3D インスタンス セグメンテーションにセグメント エニシング モデル (SAM) を活用することを目的としています。
入力ストリーミング RGB-D ビデオでは将来のフレームが利用できず、インスタンスが複数のフレームで観察される可能性があるため、フレーム間のオブジェクトのマッチングが必要になるため、これは困難な問題です。
これらの課題に対処するために、まず、SAM によって生成された 2D マスクを 3D 認識クエリで表現するための幾何学認識クエリ リフティング モジュールを提案します。その後、デュアルレベル クエリ デコーダによって反復的に洗練されます。
このようにして、2D マスクは 3D 点群上のきめの細かい形状に転写されます。
3D マスクのクエリ表現の利点を活用して、効率的な行列演算によって異なるビューからの 3D マスク間の類似度行列を計算でき、これによりリアルタイム推論が可能になります。
ScanNet、ScanNet200、SceneNN、および 3RScan での実験では、私たちの方法がオフライン方法と比較しても優れたパフォーマンスを達成することが示されています。
また、私たちの方法は、いくつかのゼロショット データセット転送実験で優れた一般化能力を実証し、オープンな語彙とデータ効率の高い設定で大きな可能性を示します。
コードとデモは https://xuxw98.github.io/ESAM/ で入手できます。トレーニングと評価に必要な RTX 3090 GPU は 1 つだけです。

要約(オリジナル)

Embodied tasks require the agent to fully understand 3D scenes simultaneously with its exploration, so an online, real-time, fine-grained and highly-generalized 3D perception model is desperately needed. Since high-quality 3D data is limited, directly training such a model in 3D is almost infeasible. Meanwhile, vision foundation models (VFM) has revolutionized the field of 2D computer vision with superior performance, which makes the use of VFM to assist embodied 3D perception a promising direction. However, most existing VFM-assisted 3D perception methods are either offline or too slow that cannot be applied in practical embodied tasks. In this paper, we aim to leverage Segment Anything Model (SAM) for real-time 3D instance segmentation in an online setting. This is a challenging problem since future frames are not available in the input streaming RGB-D video, and an instance may be observed in several frames so object matching between frames is required. To address these challenges, we first propose a geometric-aware query lifting module to represent the 2D masks generated by SAM by 3D-aware queries, which is then iteratively refined by a dual-level query decoder. In this way, the 2D masks are transferred to fine-grained shapes on 3D point clouds. Benefit from the query representation for 3D masks, we can compute the similarity matrix between the 3D masks from different views by efficient matrix operation, which enables real-time inference. Experiments on ScanNet, ScanNet200, SceneNN and 3RScan show our method achieves leading performance even compared with offline methods. Our method also demonstrates great generalization ability in several zero-shot dataset transferring experiments and show great potential in open-vocabulary and data-efficient setting. Code and demo are available at https://xuxw98.github.io/ESAM/, with only one RTX 3090 GPU required for training and evaluation.

arxiv情報

著者 Xiuwei Xu,Huangxing Chen,Linqing Zhao,Ziwei Wang,Jie Zhou,Jiwen Lu
発行日 2024-08-21 17:57:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク