EmbodiedSAM: Online Segment Any 3D Thing in Real Time

要約

具体化されたタスクでは、エージェントがその探索と同時に3Dシーンを完全に理解する必要があるため、オンライン、リアルタイム、微調整された高度な3D認識モデルが必死に必要です。
高品質の3Dデータは限られているため、3Dでそのようなモデルを直接トレーニングすることはほとんど実行不可能です。
一方、Vision Foundation Models(VFM)は、優れた性能を備えた2Dコンピュータービジョンの分野に革命をもたらしました。これにより、VFMを使用して、具体化された3D認識が有望な方向になります。
ただし、既存のVFM支援3D認識方法のほとんどは、オフラインまたは遅すぎるため、実際の具体化されたタスクには適用できません。
このホワイトペーパーでは、オンライン設定でのリアルタイム3Dインスタンスセグメンテーションのために、あらゆるモデル(SAM)を活用することを目指しています。
入力ストリーミングRGB-Dビデオでは将来のフレームが利用できないため、これは困難な問題です。いくつかのフレームでインスタンスが観察される可能性があるため、フレーム間のオブジェクトマッチングが必要です。
これらの課題に対処するために、最初に、3Dが認識したクエリによってSAMによって生成された2Dマスクを表す幾何学的なクエリリフティングモジュールを提案します。
このようにして、2Dマスクは3Dポイント雲の細粒の形状に転送されます。
3Dマスクのクエリ表現の恩恵を受けると、リアルタイムの推論を可能にする効率的なマトリックス操作により、さまざまなビューから3Dマスク間の類似性マトリックスを計算できます。
Scannet、Scannet200、Scenenn、3RSCANでの実験は、オフラインの方法と比較しても、私たちの方法が主要なパフォーマンスを達成することを示しています。
また、私たちの方法は、いくつかのゼロショットデータセット転送実験における優れた一般化能力を示しており、オープンボキャブラリーおよびデータ効率の良い設定で大きな可能性を示しています。
コードとデモはhttps://xuxw98.github.io/esam/で入手でき、トレーニングと評価に必要なRTX 3090 GPUは1つだけです。

要約(オリジナル)

Embodied tasks require the agent to fully understand 3D scenes simultaneously with its exploration, so an online, real-time, fine-grained and highly-generalized 3D perception model is desperately needed. Since high-quality 3D data is limited, directly training such a model in 3D is almost infeasible. Meanwhile, vision foundation models (VFM) has revolutionized the field of 2D computer vision with superior performance, which makes the use of VFM to assist embodied 3D perception a promising direction. However, most existing VFM-assisted 3D perception methods are either offline or too slow that cannot be applied in practical embodied tasks. In this paper, we aim to leverage Segment Anything Model (SAM) for real-time 3D instance segmentation in an online setting. This is a challenging problem since future frames are not available in the input streaming RGB-D video, and an instance may be observed in several frames so object matching between frames is required. To address these challenges, we first propose a geometric-aware query lifting module to represent the 2D masks generated by SAM by 3D-aware queries, which is then iteratively refined by a dual-level query decoder. In this way, the 2D masks are transferred to fine-grained shapes on 3D point clouds. Benefit from the query representation for 3D masks, we can compute the similarity matrix between the 3D masks from different views by efficient matrix operation, which enables real-time inference. Experiments on ScanNet, ScanNet200, SceneNN and 3RScan show our method achieves leading performance even compared with offline methods. Our method also demonstrates great generalization ability in several zero-shot dataset transferring experiments and show great potential in open-vocabulary and data-efficient setting. Code and demo are available at https://xuxw98.github.io/ESAM/, with only one RTX 3090 GPU required for training and evaluation.

arxiv情報

著者 Xiuwei Xu,Huangxing Chen,Linqing Zhao,Ziwei Wang,Jie Zhou,Jiwen Lu
発行日 2025-02-12 05:16:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク