要約
最近、グラフベースの計画アルゴリズムは、ゴール条件付き強化学習 (RL) タスクを解決するために多くの注目を集めています: ターゲットゴールに到達するための一連のサブゴールを提供し、エージェントはサブゴール条件付きポリシーを実行することを学習します。
ただし、そのような RL スキームのサンプル効率は、特に長期的なタスクの場合、依然として課題のままです。
この問題に対処するために、サブゴール条件付きポリシーをターゲットゴール条件付きポリシーに抽出する、シンプルで効果的な自己模倣スキームを提示します。
ここでの私たちの直感は、ターゲットゴールに到達するために、エージェントはサブゴールを通過する必要があるため、ターゲットゴール条件付きポリシーとサブゴール条件付きポリシーは互いに類似している必要があるということです。
また、計画されたパスで実行されたサブゴールを確率的にスキップする新しいスキームを提案します。これにより、パフォーマンスがさらに向上します。
実行段階でグラフベースの計画のみを利用する従来の方法とは異なり、私たちの方法は、プランナーからの知識をグラフとともにポリシー学習に転送します。
私たちの方法が、さまざまな長期的な制御タスクの下で、既存の目標条件付き強化学習法のサンプル効率を大幅に向上できることを経験的に示しています。
要約(オリジナル)
Recently, graph-based planning algorithms have gained much attention to solve goal-conditioned reinforcement learning (RL) tasks: they provide a sequence of subgoals to reach the target-goal, and the agents learn to execute subgoal-conditioned policies. However, the sample-efficiency of such RL schemes still remains a challenge, particularly for long-horizon tasks. To address this issue, we present a simple yet effective self-imitation scheme which distills a subgoal-conditioned policy into the target-goal-conditioned policy. Our intuition here is that to reach a target-goal, an agent should pass through a subgoal, so target-goal- and subgoal- conditioned policies should be similar to each other. We also propose a novel scheme of stochastically skipping executed subgoals in a planned path, which further improves performance. Unlike prior methods that only utilize graph-based planning in an execution phase, our method transfers knowledge from a planner along with a graph into policy learning. We empirically show that our method can significantly boost the sample-efficiency of the existing goal-conditioned RL methods under various long-horizon control tasks.
arxiv情報
著者 | Junsu Kim,Younggyo Seo,Sungsoo Ahn,Kyunghwan Son,Jinwoo Shin |
発行日 | 2023-03-20 14:51:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google