SLAC: Simulation-Pretrained Latent Action Space for Whole-Body Real-World RL

要約

有能な家庭用および産業ロボットを建設するには、モバイルマニピュレーターなどの汎用性の高い高級(DOF)システムの制御を習得する必要があります。
強化学習(RL)は、ロボット制御ポリシーを自律的に取得することを約束していますが、それを高ドフの実施形態に拡大することは依然として困難です。
現実世界の直接RLには、安全な探索と高いサンプル効率の両方が必要であり、実際には達成することは困難です。
一方、SIMからリアルのRLは、現実のギャップのためにしばしば脆くなります。
このペーパーでは、SLACを紹介します。これは、タスクに依存しない潜在的なアクション空間を前処理するために低忠実度シミュレーターを活用することにより、複雑な実施形態を実現可能にする方法を実現可能にする方法です。
SLACは、時間的な抽象化、解体、および安全性を促進するために設計されたカスタマイズされた監視されていないスキル発見方法を介して、この潜在的なアクションスペースを訓練し、それにより効率的な下流の学習を促進します。
潜在的なアクションスペースが学習されると、SLACはそれを新しいポリティオフポリティRLアルゴリズムのアクションインターフェイスとして使用して、実際の相互作用を通じて下流のタスクを自律的に学習します。
一連の2つのモバイル操作タスクのスイートで既存の方法に対してSLACを評価し、最先端のパフォーマンスを実現します。
特に、SLACは、デモンストレーションや手作りの動作前に頼ることなく、実際の相互作用の1時間未満で接触豊富な全身タスクを学習します。
Robo-Rl.github.ioの詳細、コード、ビデオ

要約(オリジナル)

Building capable household and industrial robots requires mastering the control of versatile, high-degree-of-freedom (DoF) systems such as mobile manipulators. While reinforcement learning (RL) holds promise for autonomously acquiring robot control policies, scaling it to high-DoF embodiments remains challenging. Direct RL in the real world demands both safe exploration and high sample efficiency, which are difficult to achieve in practice. Sim-to-real RL, on the other hand, is often brittle due to the reality gap. This paper introduces SLAC, a method that renders real-world RL feasible for complex embodiments by leveraging a low-fidelity simulator to pretrain a task-agnostic latent action space. SLAC trains this latent action space via a customized unsupervised skill discovery method designed to promote temporal abstraction, disentanglement, and safety, thereby facilitating efficient downstream learning. Once a latent action space is learned, SLAC uses it as the action interface for a novel off-policy RL algorithm to autonomously learn downstream tasks through real-world interactions. We evaluate SLAC against existing methods on a suite of bimanual mobile manipulation tasks, where it achieves state-of-the-art performance. Notably, SLAC learns contact-rich whole-body tasks in under an hour of real-world interactions, without relying on any demonstrations or hand-crafted behavior priors. More information, code, and videos at robo-rl.github.io

arxiv情報

著者 Jiaheng Hu,Peter Stone,Roberto Martín-Martín
発行日 2025-06-04 16:41:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク