要約
ロボット操作タスクをロボットと環境を関連付ける制約として表すことは、望ましいロボットの動作をエンコードする有望な方法です。
ただし、1) 多様なタスクに多用途であり、2) 手動によるラベル付けが不要で、3) リアルタイムでロボットの動作を生成するために既製のソルバーによって最適化できるような制約をどのように定式化するかは依然として不明です。
この研究では、ロボット操作における制約を視覚的に根拠づけて表現する Relational Keypoint Constraints (ReKep) を導入します。
具体的には、ReKep は、環境内の一連の 3D キーポイントを数値コストにマッピングする Python 関数として表現されます。
操作タスクを一連の関係キーポイント制約として表すことにより、階層的な最適化手順を使用して、知覚-アクション ループを使用したロボットのアクション (SE(3) のエンドエフェクターのポーズのシーケンスで表される) を解決できることを実証します。
リアルタイムの頻度で。
さらに、新しいタスクごとに ReKep を手動で指定する必要性を回避するために、大規模な視覚モデルと視覚言語モデルを活用して、自由形式の言語命令と RGB-D 観察から ReKep を生成する自動化手順を考案しました。
車輪付きシングルアーム プラットフォームと固定デュアルアーム プラットフォームでのシステム実装を紹介します。これらは、タスク固有の動作をすべて行わずに、多段階、野外、両手操作、および反応的な動作を特徴とするさまざまな操作タスクを実行できます。
データまたは環境モデル。
ウェブサイトは https://rekep-robot.github.io/ です。
要約(オリジナル)
Representing robotic manipulation tasks as constraints that associate the robot and the environment is a promising way to encode desired robot behaviors. However, it remains unclear how to formulate the constraints such that they are 1) versatile to diverse tasks, 2) free of manual labeling, and 3) optimizable by off-the-shelf solvers to produce robot actions in real-time. In this work, we introduce Relational Keypoint Constraints (ReKep), a visually-grounded representation for constraints in robotic manipulation. Specifically, ReKep is expressed as Python functions mapping a set of 3D keypoints in the environment to a numerical cost. We demonstrate that by representing a manipulation task as a sequence of Relational Keypoint Constraints, we can employ a hierarchical optimization procedure to solve for robot actions (represented by a sequence of end-effector poses in SE(3)) with a perception-action loop at a real-time frequency. Furthermore, in order to circumvent the need for manual specification of ReKep for each new task, we devise an automated procedure that leverages large vision models and vision-language models to produce ReKep from free-form language instructions and RGB-D observations. We present system implementations on a wheeled single-arm platform and a stationary dual-arm platform that can perform a large variety of manipulation tasks, featuring multi-stage, in-the-wild, bimanual, and reactive behaviors, all without task-specific data or environment models. Website at https://rekep-robot.github.io/.
arxiv情報
著者 | Wenlong Huang,Chen Wang,Yunzhu Li,Ruohan Zhang,Li Fei-Fei |
発行日 | 2024-11-12 04:33:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google