Learning Long-Horizon Robot Manipulation Skills via Privileged Action

要約

長老の接触豊富なタスクは、まばらな報酬を備えた高次元状態空間を効果的に調査するため、強化学習で学習するのが困難です。
学習プロセスは、多くの場合、ローカルの最適に閉じ込められ、複雑なシナリオにタスク固有の報酬微調整を要求します。
この作業では、特権的なアクションをカリキュラム学習で活用する構造化されたフレームワークを提案し、広範な報酬エンジニアリングや参照の軌跡に依存することなく、ポリシーが長老症のスキルを効率的に獲得できるようにします。
具体的には、シミュレーションで特権アクションを使用して、実際のシナリオで実装することができない一般的なトレーニング手順を使用します。
これらの特権には、オブジェクトとの相互作用と探索を強化するリラックスした制約と仮想力が含まれます。
我々の結果は、非理解できない操作を自然に把握して、把握できないポーズからオブジェクトを持ち上げるための複雑なマルチステージの長距離タスクを成功裏に達成します。
普通の報酬構造を維持し、さまざまな環境にわたる多様で堅牢な行動への収束を示すことにより、一般性を示します。
さらに、実際の実験では、アプローチを使用して獲得したスキルが実世界の環境に移行できることをさらに確認し、堅牢で複雑なパフォーマンスを示します。
私たちのアプローチは、これらのタスクで最新の方法を上回り、他のタスクが失敗するソリューションに収束します。

要約(オリジナル)

Long-horizon contact-rich tasks are challenging to learn with reinforcement learning, due to ineffective exploration of high-dimensional state spaces with sparse rewards. The learning process often gets stuck in local optimum and demands task-specific reward fine-tuning for complex scenarios. In this work, we propose a structured framework that leverages privileged actions with curriculum learning, enabling the policy to efficiently acquire long-horizon skills without relying on extensive reward engineering or reference trajectories. Specifically, we use privileged actions in simulation with a general training procedure that would be infeasible to implement in real-world scenarios. These privileges include relaxed constraints and virtual forces that enhance interaction and exploration with objects. Our results successfully achieve complex multi-stage long-horizon tasks that naturally combine non-prehensile manipulation with grasping to lift objects from non-graspable poses. We demonstrate generality by maintaining a parsimonious reward structure and showing convergence to diverse and robust behaviors across various environments. Additionally, real-world experiments further confirm that the skills acquired using our approach are transferable to real-world environments, exhibiting robust and intricate performance. Our approach outperforms state-of-the-art methods in these tasks, converging to solutions where others fail.

arxiv情報

著者 Xiaofeng Mao,Yucheng Xu,Zhaole Sun,Elle Miller,Daniel Layeghi,Michael Mistry
発行日 2025-02-21 13:11:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク