要約
タイトル – 多目標強化学習における適応的探索のためのシュタイン変分目標生成
要約 – 多目標強化学習において、エージェントは関連するトレーニングタスク間で経験を共有することができ、テスト時の新しいタスクの汎化が向上する。しかし、目標空間に不連続性がある場合や報酬がまれである場合は、ほとんどの目標は到達が困難である。この文脈では、目標に関するカリキュラムはエージェントがその現在の能力に応じてトレーニングタスクを適応させることにより学習を助ける。本研究では、エージェントの目標到達能力の予測モデルを活用して、中程度の難易度の目標をサンプリングする、シュタイン変分目標生成(SVGG)を提案する。目標の分布は、シュタイン変分勾配降下を使用して適切な難易度の領域に引き付けられる粒子でモデル化される。SVGGは、困難な探索問題における成功カバレッジの面で最新の多目標強化学習手法を上回ることを示し、環境が変化した場合に有用な回復性質を有することを示す。
– 多目標強化学習において、エージェントは関連するトレーニングタスク間で経験を共有し、新しいタスクの汎化が向上する。
– 目標空間に不連続性がある場合や報酬がまれである場合は、ほとんどの目標は到達が困難である。
– 目標に関するカリキュラムはエージェントがその現在の能力に応じてトレーニングタスクを適応させることにより学習を助ける。
– エージェントの目標到達能力の予測モデルを活用して、中程度の難易度の目標をサンプリングする、シュタイン変分目標生成(SVGG)を提案する。
– 目標の分布は、シュタイン変分勾配降下を使用して適切な難易度の領域に引き付けられる粒子でモデル化される。
– SVGGは、困難な探索問題における成功カバレッジの面で最新の多目標強化学習手法を上回ることを示す。
– 環境が変化した場合には、SVGGは有用な回復性質を有する。
要約(オリジナル)
In multi-goal Reinforcement Learning, an agent can share experience between related training tasks, resulting in better generalization for new tasks at test time. However, when the goal space has discontinuities and the reward is sparse, a majority of goals are difficult to reach. In this context, a curriculum over goals helps agents learn by adapting training tasks to their current capabilities. In this work we propose Stein Variational Goal Generation (SVGG), which samples goals of intermediate difficulty for the agent, by leveraging a learned predictive model of its goal reaching capabilities. The distribution of goals is modeled with particles that are attracted in areas of appropriate difficulty using Stein Variational Gradient Descent. We show that SVGG outperforms state-of-the-art multi-goal Reinforcement Learning methods in terms of success coverage in hard exploration problems, and demonstrate that it is endowed with a useful recovery property when the environment changes.
arxiv情報
著者 | Nicolas Castanet,Sylvain Lamprier,Olivier Sigaud |
発行日 | 2023-05-02 13:44:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI