From planning to policy: distilling $\texttt{Skill-RRT}$ for long-horizon prehensile and non-prehensile manipulation

要約

現在のロボットは、プレヘンサイル前および非摂取のスキルの長いシーケンスを必要とする操作タスクの課題に直面しています。
これには、連絡先が豊富な相互作用を処理し、それらの長期的な結果を考慮しながら複数のスキルを接続することが含まれます。
このホワイトペーパーでは、長老の問題を解決することができるが、大規模な計算時間を必要とする計画アルゴリズムを蒸留するために模倣学習を活用するフレームワークを提示します。
スキルの適用性チェックと効率的な長距離計画のためのサンプリングの中間オブジェクトポーズサンプリングを組み込んだ急速に探索するランダムツリー(RRT)の拡張である$ \ texttt {skill-rrt} $を導入します。
スキルチェーンを有効にするために、オブジェクトの妨害を最小限に抑えながらスキル間の遷移を示す$ \ textit {Connectors} $、目標調整されたポリシーを提案します。
怠zyな計画を使用すると、コネクタは関連する移行で選択的にトレーニングされ、トレーニングのコストが削減されます。
高品質のデモンストレーションは、$ \ texttt {Skill-RRT} $で生成され、ノイズベースのリプレイメカニズムによって洗練され、堅牢なポリシーパフォーマンスが確保されます。
完全にシミュレーションで訓練された蒸留ポリシーは、現実世界へのゼロショット転送、3つの挑戦的な操作タスクで80%以上の成功率を達成しています。
シミュレーションでは、私たちのアプローチは、最先端のスキルベースの強化学習方法、$ \ texttt {maple} $、および$ \ texttt {skill-rrt} $よりも優れています。

要約(オリジナル)

Current robots face challenges in manipulation tasks that require a long sequence of prehensile and non-prehensile skills. This involves handling contact-rich interactions and chaining multiple skills while considering their long-term consequences. This paper presents a framework that leverages imitation learning to distill a planning algorithm, capable of solving long-horizon problems but requiring extensive computation time, into a policy for efficient action inference. We introduce $\texttt{Skill-RRT}$, an extension of the rapidly-exploring random tree (RRT) that incorporates skill applicability checks and intermediate object pose sampling for efficient long-horizon planning. To enable skill chaining, we propose $\textit{connectors}$, goal-conditioned policies that transition between skills while minimizing object disturbance. Using lazy planning, connectors are selectively trained on relevant transitions, reducing the cost of training. High-quality demonstrations are generated with $\texttt{Skill-RRT}$ and refined by a noise-based replay mechanism to ensure robust policy performance. The distilled policy, trained entirely in simulation, zero-shot transfer to the real world, and achieves over 80% success rates across three challenging manipulation tasks. In simulation, our approach outperforms the state-of-the-art skill-based reinforcement learning method, $\texttt{MAPLE}$, and $\texttt{Skill-RRT}$.

arxiv情報

著者 Haewon Jung,Donguk Lee,Haecheol Park,JunHyeop Kim,Beomjoon Kim
発行日 2025-02-26 02:49:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク