要約
高次元の状態空間を効率的に探索する能力は、深層強化学習 (RL) を実際に成功させるために不可欠です。
このペーパーでは、ランダム潜在探索 (RLE) と呼ばれる新しい探索手法を紹介します。これは、ボーナス ベースとノイズ ベース (ディープ RL で効果的な探索を行うための 2 つの一般的なアプローチ) 探索戦略の長所を組み合わせたものです。
RLE は、環境の特定の (ランダムな) 状態で元のタスクの報酬に構造化されたランダムな報酬を追加することで報酬を混乱させるというアイデアを活用し、エージェントがトレーニング中に環境を探索することを促します。
RLE は実装が簡単で、実際に優れたパフォーマンスを発揮します。
RLE の実際的な有効性を実証するために、挑戦的な Atari および IsaacGym ベンチマークで RLE を評価し、RLE が他のアプローチよりもすべてのタスクにわたって高い総合スコアを示すことを示しました。
要約(オリジナル)
The ability to efficiently explore high-dimensional state spaces is essential for the practical success of deep Reinforcement Learning (RL). This paper introduces a new exploration technique called Random Latent Exploration (RLE), that combines the strengths of bonus-based and noise-based (two popular approaches for effective exploration in deep RL) exploration strategies. RLE leverages the idea of perturbing rewards by adding structured random rewards to the original task rewards in certain (random) states of the environment, to encourage the agent to explore the environment during training. RLE is straightforward to implement and performs well in practice. To demonstrate the practical effectiveness of RLE, we evaluate it on the challenging Atari and IsaacGym benchmarks and show that RLE exhibits higher overall scores across all the tasks than other approaches.
arxiv情報
著者 | Srinath Mahankali,Zhang-Wei Hong,Ayush Sekhari,Alexander Rakhlin,Pulkit Agrawal |
発行日 | 2024-07-18 17:55:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google