$\texttt{SPIN}$: distilling $\texttt{Skill-RRT}$ for long-horizon prehensile and non-prehensile manipulation

要約

現在のロボットは、プレヘンシルおよび非摂食スキルのシーケンス、接触豊富な相互作用、および長期的な推論を必要とする長老操作タスクと格闘しています。
$ \ texttt {spin} $($ \ textbf {s} $ kill $ \ textbf {p} $ lanning to $ \ textbf {in} $ ference)を提示します。
スキルの適用可能性チェックとそのような長期の問題を解決するための中間オブジェクトのポーズサンプリングを組み込んだRRTの拡張である$ \ texttt {skill-rrt} $を提案します。
独立して訓練されたスキルをチェーンするために、移行中のオブジェクトの妨害を最小限に抑えるためにトレーニングされた目標調整されたポリシー$ \ textit {connectors} $を紹介します。
高品質のデモンストレーションは、$ \ texttt {Skill-RRT} $で生成され、オンラインの計算時間を短縮するためにノイズベースのリプレイで蒸留されます。
完全にシミュレーションで訓練された結果のポリシーは、現実世界にゼロショットを転送し、3つの挑戦的な長期操作タスクで80%以上の成功を達成し、最先端の階層RLと計画方法を上回ります。

要約(オリジナル)

Current robots struggle with long-horizon manipulation tasks requiring sequences of prehensile and non-prehensile skills, contact-rich interactions, and long-term reasoning. We present $\texttt{SPIN}$ ($\textbf{S}$kill $\textbf{P}$lanning to $\textbf{IN}$ference), a framework that distills a computationally intensive planning algorithm into a policy via imitation learning. We propose $\texttt{Skill-RRT}$, an extension of RRT that incorporates skill applicability checks and intermediate object pose sampling for solving such long-horizon problems. To chain independently trained skills, we introduce $\textit{connectors}$, goal-conditioned policies trained to minimize object disturbance during transitions. High-quality demonstrations are generated with $\texttt{Skill-RRT}$ and distilled through noise-based replay in order to reduce online computation time. The resulting policy, trained entirely in simulation, transfers zero-shot to the real world and achieves over 80% success across three challenging long-horizon manipulation tasks and outperforms state-of-the-art hierarchical RL and planning methods.

arxiv情報

著者 Haewon Jung,Donguk Lee,Haecheol Park,JunHyeop Kim,Beomjoon Kim
発行日 2025-05-07 05:34:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク