要約
強化学習(RL)におけるシンプルで効果的な探索戦略であるランダム潜在探査(RLE)を紹介します。
平均して、RLEはエージェントのアクションを混乱させるノイズベースの方法と、新しい行動を試みるためにエージェントに報いるボーナスベースの探査を上回ります。
RLEの中心的なアイデアは、潜在的な空間でランダムにサンプリングされた目標を追求することにより、エージェントが環境のさまざまな部分を探索することを奨励することです。
RLEは、複雑なボーナス計算を回避しますが、ボーナスベースの方法の深い探査の利点を保持するため、ノイズベースの方法と同じくらい簡単です。
私たちの実験は、RLEが離散(ATARIなど)と連続制御タスク(ISAACジムなど)の両方で平均してパフォーマンスを向上させ、既存のRLアルゴリズムのシンプルで一般的なプラグインを維持しながら探索を強化することを示しています。
要約(オリジナル)
We introduce Random Latent Exploration (RLE), a simple yet effective exploration strategy in reinforcement learning (RL). On average, RLE outperforms noise-based methods, which perturb the agent’s actions, and bonus-based exploration, which rewards the agent for attempting novel behaviors. The core idea of RLE is to encourage the agent to explore different parts of the environment by pursuing randomly sampled goals in a latent space. RLE is as simple as noise-based methods, as it avoids complex bonus calculations but retains the deep exploration benefits of bonus-based methods. Our experiments show that RLE improves performance on average in both discrete (e.g., Atari) and continuous control tasks (e.g., Isaac Gym), enhancing exploration while remaining a simple and general plug-in for existing RL algorithms.
arxiv情報
著者 | Srinath Mahankali,Zhang-Wei Hong,Ayush Sekhari,Alexander Rakhlin,Pulkit Agrawal |
発行日 | 2025-02-24 18:35:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google