Self-Supervised Curriculum Generation for Autonomous Reinforcement Learning without Task-Specific Knowledge

要約

現在の強化学習アルゴリズムを現実世界のシナリオに適用する際の大きなボトルネックは、エピソードごとに環境をリセットする必要があることです。
このリセット プロセスには大幅な人間の介入が必要となるため、エージェントが継続的かつ自律的に学習することが困難になります。
最近のいくつかの研究では、リセットおよびフォワード ポリシーを共同でトレーニングするためのカリキュラムを生成する自律強化学習 (ARL) アルゴリズムが導入されています。
彼らのカリキュラムでは、エージェントの学習の進行状況を考慮することで必要な手動リセットの回数を減らすことができますが、事前定義された初期状態やリセット報酬関数などのタスク固有の知識に依存しています。
この論文では、タスク固有の知識がなくてもエージェントの学習の進行に適応するカリキュラムを生成できる新しい ARL アルゴリズムを提案します。
私たちのカリキュラムは、エージェントが自律的に多様で有益な初期状態にリセットできるようにします。
これを達成するために、エージェントが順方向ポリシーに従うときの各初期状態から成功確率を推定する成功弁別器を導入します。
成功識別子は、自己教師付きの方法で再ラベル付けされた遷移を使用してトレーニングされます。
私たちの実験結果は、ARL アルゴリズムが適応カリキュラムを生成し、エージェントが効率的にブートストラップして報酬の少ない迷路のナビゲーションと操作タスクを解決できるようにし、大幅に少ない手動リセットでベースラインを上回るパフォーマンスを発揮できることを示しています。

要約(オリジナル)

A significant bottleneck in applying current reinforcement learning algorithms to real-world scenarios is the need to reset the environment between every episode. This reset process demands substantial human intervention, making it difficult for the agent to learn continuously and autonomously. Several recent works have introduced autonomous reinforcement learning (ARL) algorithms that generate curricula for jointly training reset and forward policies. While their curricula can reduce the number of required manual resets by taking into account the agent’s learning progress, they rely on task-specific knowledge, such as predefined initial states or reset reward functions. In this paper, we propose a novel ARL algorithm that can generate a curriculum adaptive to the agent’s learning progress without task-specific knowledge. Our curriculum empowers the agent to autonomously reset to diverse and informative initial states. To achieve this, we introduce a success discriminator that estimates the success probability from each initial state when the agent follows the forward policy. The success discriminator is trained with relabeled transitions in a self-supervised manner. Our experimental results demonstrate that our ARL algorithm can generate an adaptive curriculum and enable the agent to efficiently bootstrap to solve sparse-reward maze navigation and manipulation tasks, outperforming baselines with significantly fewer manual resets.

arxiv情報

著者 Sang-Hyun Lee,Seung-Woo Seo
発行日 2024-02-18 12:39:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク