Hierarchical Reinforcement Learning Based on Planning Operators

要約

スタッキングなどの長期的な操作タスクは、ロボット操作の分野における長年の課題であり、特に強化学習 (RL) 手法を使用する場合、これらの複雑な目標を達成するための正しいアクションの順序を学習するのに苦労することがよくあります。
このシーケンスを学習するには、シンボリック プランニング手法が高レベルの推論に基づいた優れたソリューションを提供しますが、プランナーは、正確な実行に必要な低レベルの制御の特異性への対応が不十分なことがよくあります。
この論文では、高レベルのオペレーターと低レベルのポリシーの協力を通じて、シンボリック プランニングと階層型 RL を統合する新しいフレームワークを紹介します。
私たちの貢献では、計画補助制御 (SAC-X) メソッドに基づく階層型 RL アルゴリズムの一部として計画演算子 (前提条件や効果など) を統合します。
私たちは、総合的な計画と独立した再利用可能なポリシーの両方で使用できる、二重目的の高レベル オペレーターを開発しました。
私たちのアプローチは、立方体の積み重ねなど、長期にわたるタスクに対する柔軟なソリューションを提供します。
実験結果は、私たちが提案した方法がスタックシーケンス全体の学習と実行については平均97.2%の成功率を獲得し、独立したポリシーの学習については成功率が得られたことを示しています。
リーチ (98.9%)、リフト (99.7%)、スタック (85%) など。提案されたアプローチを使用すると、トレーニング時間も 68% 削減されます。

要約(オリジナル)

Long-horizon manipulation tasks such as stacking represent a longstanding challenge in the field of robotic manipulation, particularly when using reinforcement learning (RL) methods which often struggle to learn the correct sequence of actions for achieving these complex goals. To learn this sequence, symbolic planning methods offer a good solution based on high-level reasoning, however, planners often fall short in addressing the low-level control specificity needed for precise execution. This paper introduces a novel framework that integrates symbolic planning with hierarchical RL through the cooperation of high-level operators and low-level policies. Our contribution integrates planning operators (e.g. preconditions and effects) as part of the hierarchical RL algorithm based on the Scheduled Auxiliary Control (SAC-X) method. We developed a dual-purpose high-level operator, which can be used both in holistic planning and as independent, reusable policies. Our approach offers a flexible solution for long-horizon tasks, e.g., stacking a cube. The experimental results show that our proposed method obtained an average of 97.2% success rate for learning and executing the whole stack sequence, and the success rate for learning independent policies, e.g. reach (98.9%), lift (99.7%), stack (85%), etc. The training time is also reduced by 68% when using our proposed approach.

arxiv情報

著者 Jing Zhang,Emmanuel Dean,Karinne Ramirez-Amaro
発行日 2024-06-28 11:34:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク