A Real-to-Sim-to-Real Approach to Robotic Manipulation with VLM-Generated Iterative Keypoint Rewards

要約

オープンワールド環境でのロボット操作のタスク仕様は挑戦的であり、人間の意図と整合し、反復フィードバックを通じて進化する柔軟で適応的な目標を必要とします。
動的タスク仕様として機能する視覚的に接地されたPythonベースの報酬関数であるIterative Keypoint Reward(IKER)を紹介します。
当社のフレームワークは、VLMを活用して、マルチステップ操作タスクのこれらの報酬機能を生成および改良します。
RGB-Dの観察と自由形式の言語の指示を考えると、シーンのキーポイントをサンプリングし、これらのキーポイントに条件付けられた報酬関数を生成します。
Ikerは、キーポイント間の空間的関係を操作し、望ましい動作に関する常識的な事前を活用し、正確なSE(3)制御を可能にします。
シミュレーションで実世界のシーンを再構築し、生成された報酬を使用して補強学習(RL)ポリシーを訓練し、実際の世界からリアルへのループを実現する現実の世界に展開されます。
私たちのアプローチは、事前濃度と非充実したタスクの両方、マルチステップタスクの実行、自発的なエラー回復、オンザフライ戦略の調整など、さまざまなシナリオ全体で顕著な機能を示しています。
結果は、ロボットが反復的な報酬形状を通じて動的環境でマルチステップタスクを実行できるようにすることにおけるIkerの有効性を強調しています。

要約(オリジナル)

Task specification for robotic manipulation in open-world environments is challenging, requiring flexible and adaptive objectives that align with human intentions and can evolve through iterative feedback. We introduce Iterative Keypoint Reward (IKER), a visually grounded, Python-based reward function that serves as a dynamic task specification. Our framework leverages VLMs to generate and refine these reward functions for multi-step manipulation tasks. Given RGB-D observations and free-form language instructions, we sample keypoints in the scene and generate a reward function conditioned on these keypoints. IKER operates on the spatial relationships between keypoints, leveraging commonsense priors about the desired behaviors, and enabling precise SE(3) control. We reconstruct real-world scenes in simulation and use the generated rewards to train reinforcement learning (RL) policies, which are then deployed into the real world-forming a real-to-sim-to-real loop. Our approach demonstrates notable capabilities across diverse scenarios, including both prehensile and non-prehensile tasks, showcasing multi-step task execution, spontaneous error recovery, and on-the-fly strategy adjustments. The results highlight IKER’s effectiveness in enabling robots to perform multi-step tasks in dynamic environments through iterative reward shaping.

arxiv情報

著者 Shivansh Patel,Xinchen Yin,Wenlong Huang,Shubham Garg,Hooshang Nayyeri,Li Fei-Fei,Svetlana Lazebnik,Yunzhu Li
発行日 2025-02-12 18:57:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク