Efficient Robotic Policy Learning via Latent Space Backward Planning

要約

現在のロボット計画方法は、多くの場合、完全なピクセルの詳細でマルチフレーム画像を予測することに依存しています。
このきめの細かいアプローチは一般的な世界モデルとして機能しますが、下流のポリシー学習に2つの重要な課題を導入します。リアルタイムの展開を妨げる実質的な計算コストと、アクション抽出を誤解させる可能性のある不正確さを蓄積します。
粗粒のサブゴールを計画することは、効率性の問題を部分的に軽減します。
ただし、彼らの将来の計画スキームは、蓄積エラーのために依然としてオフタスクの予測をもたらす可能性があり、長期的な目標の誤りをつなぐことができます。
これは重要な疑問を提起します。ロボット計画は、長老のマルチステージタスクでのリアルタイム制御に十分な効率的かつ正確である可能性がありますか?
これに対処するために、タスクを最終的な潜在的な目標に接地することから始まり、その後の中間サブゴールを現在の状態に近い予測することから始まる潜在スペース後方計画スキーム(LBP)を提案します。
接地された最終目標により、後方のサブゴール計画は常にタスクの完了を認識し、計画の地平線全体に沿ってタスク上の予測を促進することができます。
サブゴール条件付きポリシーには、学習可能なトークンが組み込まれており、サブゴールシーケンスを要約し、各サブゴールがアクション抽出をガイドする方法を決定します。
大規模なシミュレーションとリアルロボットの長老型実験を通じて、LBPは既存の微細な計画方法を上回り、SOTAパフォーマンスを達成することを示しています。
プロジェクトページ:https://lbp-authors.github.io

要約(オリジナル)

Current robotic planning methods often rely on predicting multi-frame images with full pixel details. While this fine-grained approach can serve as a generic world model, it introduces two significant challenges for downstream policy learning: substantial computational costs that hinder real-time deployment, and accumulated inaccuracies that can mislead action extraction. Planning with coarse-grained subgoals partially alleviates efficiency issues. However, their forward planning schemes can still result in off-task predictions due to accumulation errors, leading to misalignment with long-term goals. This raises a critical question: Can robotic planning be both efficient and accurate enough for real-time control in long-horizon, multi-stage tasks? To address this, we propose a Latent Space Backward Planning scheme (LBP), which begins by grounding the task into final latent goals, followed by recursively predicting intermediate subgoals closer to the current state. The grounded final goal enables backward subgoal planning to always remain aware of task completion, facilitating on-task prediction along the entire planning horizon. The subgoal-conditioned policy incorporates a learnable token to summarize the subgoal sequences and determines how each subgoal guides action extraction. Through extensive simulation and real-robot long-horizon experiments, we show that LBP outperforms existing fine-grained and forward planning methods, achieving SOTA performance. Project Page: https://lbp-authors.github.io

arxiv情報

著者 Dongxiu Liu,Haoyi Niu,Zhihao Wang,Jinliang Zheng,Yinan Zheng,Zhonghong Ou,Jianming Hu,Jianxiong Li,Xianyuan Zhan
発行日 2025-05-27 10:30:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク