GraspSplats: Efficient Manipulation with 3D Feature Splatting

要約

ロボットが物体の部品を効率的かつゼロショットで把握できる能力は、実際のアプリケーションにとって極めて重要であり、最近の視覚言語モデル (VLM) の進歩によって普及しつつあります。
このような機能をサポートする表現の 2D から 3D へのギャップを埋めるために、既存の方法は微分可能レンダリングまたはポイントベースの投影法を介してニューラル フィールド (NeRF) に依存しています。
ただし、NeRF は暗黙的であるためシーン変更には不適切であり、ポイントベースの方法はレンダリングベースの最適化なしではパーツの位置特定には不正確であることを示します。
これらの問題を修正するために、私たちは GraspSplats を提案します。
GraspSplats は、深度監視と新しい参照特徴計算方法を使用して、60 秒以内に高品質のシーン表現を生成します。
さらに、GraspSplats の明示的で最適化されたジオメトリが、(1) リアルタイムの把握サンプリングと (2) ポイント トラッカーを使用した動的で関節のあるオブジェクト操作をネイティブにサポートするのに十分であることを示すことで、ガウス ベースの表現の利点を検証します。
Franka ロボットでの広範な実験により、GraspSplats がさまざまなタスク設定の下で既存の手法を大幅に上回るパフォーマンスを示しました。
特に、GraspSplats は、F3RM や LERF-TOGO などの NeRF ベースの手法や 2D 検出手法よりも優れています。

要約(オリジナル)

The ability for robots to perform efficient and zero-shot grasping of object parts is crucial for practical applications and is becoming prevalent with recent advances in Vision-Language Models (VLMs). To bridge the 2D-to-3D gap for representations to support such a capability, existing methods rely on neural fields (NeRFs) via differentiable rendering or point-based projection methods. However, we demonstrate that NeRFs are inappropriate for scene changes due to their implicitness and point-based methods are inaccurate for part localization without rendering-based optimization. To amend these issues, we propose GraspSplats. Using depth supervision and a novel reference feature computation method, GraspSplats generates high-quality scene representations in under 60 seconds. We further validate the advantages of Gaussian-based representation by showing that the explicit and optimized geometry in GraspSplats is sufficient to natively support (1) real-time grasp sampling and (2) dynamic and articulated object manipulation with point trackers. With extensive experiments on a Franka robot, we demonstrate that GraspSplats significantly outperforms existing methods under diverse task settings. In particular, GraspSplats outperforms NeRF-based methods like F3RM and LERF-TOGO, and 2D detection methods.

arxiv情報

著者 Mazeyu Ji,Ri-Zhao Qiu,Xueyan Zou,Xiaolong Wang
発行日 2024-09-03 17:35:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク