要約
私たちは、純粋にシミュレーションでの強化学習によって訓練された、長期にわたる現実世界のタスクを解決する、低コストの脚付きモバイル操作システムを紹介します。
このシステムは、1) 指示に従った視覚的モバイル操作のための高レベルのポリシーと、四足歩行と四肢制御のための低レベルのポリシーの階層設計、2) 特権タスクの分解を活用した漸進的な探索および学習アプローチによって可能になります。
長期的な課題に対する教師の方針を訓練するための情報。これは、高レベルの視覚運動方針を効率的に訓練するための模倣ベースの生徒の方針を導きます。および 3) 一連のテクニック
シミュレーションと実際のギャップを最小限に抑えます。
ハイエンド機器を使用したこれまでのアプローチとは対照的に、当社のシステムは、シミュレーションの課題が増加しているにもかかわらず、よりアクセスしやすいハードウェア、特に Unitree Go1 四脚、WidowX250S アーム、および 1 台の手首に取り付けられた RGB カメラを使用して効果的なパフォーマンスを発揮します。
-実際の転送。
シミュレーションで完全にトレーニングされると、単一のポリシーが検索、移動、把握、ドロップインなどの長期的なタスクを自律的に解決し、ほぼ 80% の成功を達成します。
このパフォーマンスは、同じタスクに対する専門家の人間による遠隔操作に匹敵しますが、より効率的な方法で動作し、人間の専門家の 1.5 倍の速度で動作します。
シミュレーションからリアルへの変換は、さまざまな照明条件下でのさまざまな屋内および屋外のシーンにわたって流動的です。
最後に、効率的な RL トレーニングや sim-to-real などのパイプライン全体が脚付きモバイル操作に効果的に機能することを可能にする主要な手法について説明し、そのアブレーション結果を示します。
要約(オリジナル)
We present a low-cost legged mobile manipulation system that solves long-horizon real-world tasks, trained by reinforcement learning purely in simulation. This system is made possible by 1) a hierarchical design of a high-level policy for visual-mobile manipulation following instructions and a low-level policy for quadruped movement and limb control, 2) a progressive exploration and learning approach that leverages privileged task decomposition information to train the teacher policy for long-horizon tasks, which will guide an imitation-based student policy for efficient training of the high-level visuomotor policy, and 3) a suite of techniques for minimizing sim-to-real gaps. In contrast to previous approaches that use high-end equipment, our system demonstrates effective performance with more accessible hardware – specifically, a Unitree Go1 quadruped, a WidowX250S arm, and a single wrist-mounted RGB camera – despite the increased challenges of sim-to-real transfer. When fully trained in simulation, a single policy autonomously solves long-horizon tasks such as search, move, grasp, and drop-into, achieving nearly 80% success. This performance is comparable to that of expert human teleoperation on the same tasks but operates in a more efficient way, at 1.5 times the speed of human expert. The sim-to-real transfer is fluid across diverse indoor and outdoor scenes under varying lighting conditions. Finally, we discuss the key techniques that enable the entire pipeline, including efficient RL training and sim-to-real, to work effectively for legged mobile manipulation, and present their ablation results.
arxiv情報
著者 | Haichao Zhang,Haonan Yu,Le Zhao,Andrew Choi,Qinxun Bai,Break Yang,Wei Xu |
発行日 | 2025-01-22 01:48:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google