要約
階層強化学習 (HRL) は、時間的抽象化の段階的に高いレベルで意思決定と制御を実行することにより、困難なタスクを解決することを提案しています。
ただし、ポリシー外の HRL は、低レベルのポリシーが常に変化しているため、固定されていない高レベルのポリシーの問題に悩まされることがよくあります。
このホワイトペーパーでは、低レベルポリシーの現在のインスタンス化と互換性のあるサブゴールを生成するために高レベルポリシーを敵対的に強制することにより、非定常性を軽減するための新しい HRL アプローチを提案します。
実際には、敵対的学習は、サブゴールの互換性レベルを決定する高レベルのポリシーと同時に、単純な状態条件付き弁別ネットワークをトレーニングすることによって実装されます。
最先端のアルゴリズムとの比較は、私たちのアプローチが挑戦的な連続制御タスクにおける学習効率とパフォーマンスの両方を改善することを示しています。
要約(オリジナル)
Hierarchical reinforcement learning (HRL) proposes to solve difficult tasks by performing decision-making and control at successively higher levels of temporal abstraction. However, off-policy HRL often suffers from the problem of a non-stationary high-level policy since the low-level policy is constantly changing. In this paper, we propose a novel HRL approach for mitigating the non-stationarity by adversarially enforcing the high-level policy to generate subgoals compatible with the current instantiation of the low-level policy. In practice, the adversarial learning is implemented by training a simple state-conditioned discriminator network concurrently with the high-level policy which determines the compatibility level of subgoals. Comparison to state-of-the-art algorithms shows that our approach improves both learning efficiency and performance in challenging continuous control tasks.
arxiv情報
著者 | Vivienne Huiling Wang,Joni Pajarinen,Tinghuai Wang,Joni-Kristian Kämäräinen |
発行日 | 2023-03-13 16:36:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google