SLIM: Sim-to-Real Legged Instructive Manipulation via Long-Horizon Visuomotor Learning

要約

純粋にシミュレーションで補強学習によって訓練された、長距離の現実世界のタスクを解決する低コストの脚のモバイル操作システムを紹介します。
このシステムは、1)指示に従って視覚モバイル操作のための高レベルのポリシーの階層的設計と、四足動力と手足制御のための低レベルのポリシー、2)特権タスク分解を活用する漸進的な探索と学習アプローチ
長老のタスクの教師ポリシーを訓練するための情報。これは、高レベルの視覚運動ポリシーの効率的なトレーニングのための模倣ベースの学生ポリシーを導き、3)SIMからリアルのギャップを最小限に抑えるための一連の技術を導きます。
ハイエンド機器を使用した以前のアプローチとは対照的に、私たちのシステムは、よりアクセスしやすいハードウェア(具体的には、Unitree GO1四足動物、WidowX250Sアーム、および単一の手首に取り付けられたRGBカメラ)で効果的なパフォーマンスを示しています。
– 実際の転送。
シミュレーションで完全に訓練された場合、単一のポリシーは、検索、移動、把握、ドロップインチなどの長老型タスクを自律的に解決し、80%近くの成功を達成します。
このパフォーマンスは、同じタスクでの専門家の人間の操作のパフォーマンスに匹敵しますが、速度の約1.5倍で動作します。
SIMからリアルへの転送は、さまざまな照明条件の下で、多様な屋内および屋外シーン全体に流動的です。
最後に、効率的なRLトレーニングやSIM-to-Realなどのパイプライン全体を、脚のあるモバイル操作に効果的に機能させ、アブレーションの結果を提示できる重要な手法について説明します。

要約(オリジナル)

We present a low-cost legged mobile manipulation system that solves long-horizon real-world tasks, trained by reinforcement learning purely in simulation. This system is made possible by 1) a hierarchical design of a high-level policy for visual-mobile manipulation following instructions and a low-level policy for quadruped movement and limb control, 2) a progressive exploration and learning approach that leverages privileged task decomposition information to train the teacher policy for long-horizon tasks, which will guide an imitation-based student policy for efficient training of the high-level visuomotor policy, and 3) a suite of techniques for minimizing sim-to-real gaps. In contrast to previous approaches that use high-end equipment, our system demonstrates effective performance with more accessible hardware – specifically, a Unitree Go1 quadruped, a WidowX250S arm, and a single wrist-mounted RGB camera – despite the increased challenges of sim-to-real transfer. When fully trained in simulation, a single policy autonomously solves long-horizon tasks such as search, move, grasp, and drop-into, achieving nearly 80% success. This performance is comparable to that of expert human teleoperation on the same tasks but significantly more efficient, operating at about 1.5x the speed. The sim-to-real transfer is fluid across diverse indoor and outdoor scenes under varying lighting conditions. Finally, we discuss the key techniques that enable the entire pipeline, including efficient RL training and sim-to-real, to work effectively for legged mobile manipulation, and present their ablation results.

arxiv情報

著者 Haichao Zhang,Haonan Yu,Le Zhao,Andrew Choi,Qinxun Bai,Break Yang,Wei Xu
発行日 2025-01-25 10:43:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク