Splat-MOVER: Multi-Stage, Open-Vocabulary Robotic Manipulation via Editable Gaussian Splatting

要約

我々は、オープンボキャブラリーのロボット操作のためのモジュール型ロボットスタックである Splat-MOVER を紹介します。これは、ガウス スプラッティング (GSplat) シーン表現の編集機能を活用して、多段階の操作タスクを可能にします。
Splat-MOVER は以下で構成されます。 (i) ASK-Splat、言語セマンティクスおよび把握アフォーダンスの潜在コードを 3D シーンに抽出する GSplat 表現。
ASK-Splat は、多くのロボット タスクにとって重要な 3D シーンの幾何学的、セマンティック、およびアフォーダンスの理解を可能にします。
(ii) SEE-Splat。3D セマンティック マスキングと埋め込みを使用して、現実世界でのロボットの相互作用から生じるオブジェクトの動きを視覚化するリアルタイム シーン編集モジュールです。
SEE-Splat は、操作タスク全体を通じて進化する環境の「デジタル ツイン」を作成します。
(iii) Grasp-Splat は、ASK-Splat と SEE-Splat を使用してオープンワールド オブジェクトの候補把握を提案する把握生成モジュールです。
ASK-Splat は、操作前の短いスキャン段階で RGB 画像からリアルタイムでトレーニングされますが、SEE-Splat と Grasp-Splat は操作中にリアルタイムで実行されます。
Kinova ロボットでのハードウェア実験において、4 つの単一段階のオープン語彙操作タスクおよびシーンを反映する編集済みシーンを使用した 4 つの多段階操作タスクにおける最近の 2 つのベースラインと比較して、Splat-MOVER の優れたパフォーマンスを実証しました。
既存のベースラインでは不可能な、以前の操作段階による変化。
このプロジェクトのコードとプロジェクト ページへのリンクは間もなく公開される予定です。

要約(オリジナル)

We present Splat-MOVER, a modular robotics stack for open-vocabulary robotic manipulation, which leverages the editability of Gaussian Splatting (GSplat) scene representations to enable multi-stage manipulation tasks. Splat-MOVER consists of: (i) ASK-Splat, a GSplat representation that distills latent codes for language semantics and grasp affordance into the 3D scene. ASK-Splat enables geometric, semantic, and affordance understanding of 3D scenes, which is critical for many robotics tasks; (ii) SEE-Splat, a real-time scene-editing module using 3D semantic masking and infilling to visualize the motions of objects that result from robot interactions in the real-world. SEE-Splat creates a ‘digital twin’ of the evolving environment throughout the manipulation task; and (iii) Grasp-Splat, a grasp generation module that uses ASK-Splat and SEE-Splat to propose candidate grasps for open-world objects. ASK-Splat is trained in real-time from RGB images in a brief scanning phase prior to operation, while SEE-Splat and Grasp-Splat run in real-time during operation. We demonstrate the superior performance of Splat-MOVER in hardware experiments on a Kinova robot compared to two recent baselines in four single-stage, open-vocabulary manipulation tasks, as well as in four multi-stage manipulation tasks using the edited scene to reflect scene changes due to prior manipulation stages, which is not possible with the existing baselines. Code for this project and a link to the project page will be made available soon.

arxiv情報

著者 Ola Shorinwa,Johnathan Tucker,Aliyah Smith,Aiden Swann,Timothy Chen,Roya Firoozi,Monroe Kennedy III,Mac Schwager
発行日 2024-05-14 15:13:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク