CoPa: General Robotic Manipulation through Spatial Constraints of Parts with Foundation Models

要約

ウェブスケールのデータで事前トレーニングされた基礎モデルには、ロボット操作に有益な広範な世界知識がタスク計画の形でカプセル化されていることが示されています。
ただし、これらの計画を実際に物理的に実装するには、多くの場合、タスク固有の学習方法に依存するため、大量のデータ収集が必要となり、一般化可能性に苦労します。
この研究では、部品の空間的制約 (CoPa) によるロボット操作を紹介します。これは、基礎モデルに組み込まれた常識的な知識を活用して、オープンワールドのロボット操作のための 6-DoF エンドエフェクターのポーズのシーケンスを生成する新しいフレームワークです。
具体的には、操作プロセスをタスク指向の把握とタスクを意識した動作計画の 2 つのフェーズに分解します。
タスク指向の把握フェーズでは、基礎ビジョン言語モデル (VLM) を使用して、新しい粗いから細かい接地メカニズムを通じて物体の把握部分を選択します。
タスク認識動作計画フェーズでは、VLM を再度利用して、タスクに関連するオブジェクト部分の空間幾何学的制約を特定し、それを使用して把握後のポーズを導き出します。
また、CoPa を既存のロボット計画アルゴリズムとシームレスに統合して、複雑で長期的なタスクを達成する方法も示します。
私たちの包括的な実際の実験では、CoPa がシーンをきめ細かく物理的に理解しており、追加のトレーニングを必要とせず、最小限の迅速なエンジニアリングでオープンセットの命令とオブジェクトを処理できることが示されています。
プロジェクトページ:https://copa-2024.github.io/

要約(オリジナル)

Foundation models pre-trained on web-scale data are shown to encapsulate extensive world knowledge beneficial for robotic manipulation in the form of task planning. However, the actual physical implementation of these plans often relies on task-specific learning methods, which require significant data collection and struggle with generalizability. In this work, we introduce Robotic Manipulation through Spatial Constraints of Parts (CoPa), a novel framework that leverages the common sense knowledge embedded within foundation models to generate a sequence of 6-DoF end-effector poses for open-world robotic manipulation. Specifically, we decompose the manipulation process into two phases: task-oriented grasping and task-aware motion planning. In the task-oriented grasping phase, we employ foundation vision-language models (VLMs) to select the object’s grasping part through a novel coarse-to-fine grounding mechanism. During the task-aware motion planning phase, VLMs are utilized again to identify the spatial geometry constraints of task-relevant object parts, which are then used to derive post-grasp poses. We also demonstrate how CoPa can be seamlessly integrated with existing robotic planning algorithms to accomplish complex, long-horizon tasks. Our comprehensive real-world experiments show that CoPa possesses a fine-grained physical understanding of scenes, capable of handling open-set instructions and objects with minimal prompt engineering and without additional training. Project page: https://copa-2024.github.io/

arxiv情報

著者 Haoxu Huang,Fanqi Lin,Yingdong Hu,Shengjie Wang,Yang Gao
発行日 2024-03-13 05:03:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク