要約
補強学習のための探査アルゴリズムは、通常、エージェントが環境の以前に見えなかった状態を求めるように訓練する追加の「本質的な」報酬で報酬関数を置き換えたり、増強したりします。
ここでは、メタラーニングを悪用したり、学習を学んだりする探索アルゴリズムを検討します。エージェントは、トレーニングの時代の間でさえ、単一のエピソード内での探査の進行を最大化することを学びます。
エージェントは、すべての記憶に関して新しい観測の確率密度を最小限に抑えることを目的とするポリシーを学びます。
さらに、現在の観測密度のフィードバック評価として受信し、再発ネットワークでそのフィードバックを保持します。
密度の軌跡を思い出すことにより、エージェントは、リアルタイムで複雑で成長している親しみやすさの景観をナビゲートすることを学び、そのポリシーが訓練されていない環境の完全に新しい状態でも、探査の進行を最大化できるようにします。
要約(オリジナル)
Exploration algorithms for reinforcement learning typically replace or augment the reward function with an additional “intrinsic” reward that trains the agent to seek previously unseen states of the environment. Here, we consider an exploration algorithm that exploits meta-learning, or learning to learn, such that the agent learns to maximize its exploration progress within a single episode, even between epochs of training. The agent learns a policy that aims to minimize the probability density of new observations with respect to all of its memories. In addition, it receives as feedback evaluations of the current observation density and retains that feedback in a recurrent network. By remembering trajectories of density, the agent learns to navigate a complex and growing landscape of familiarity in real-time, allowing it to maximize its exploration progress even in completely novel states of the environment for which its policy has not been trained.
arxiv情報
著者 | Kevin L. McKee |
発行日 | 2025-03-04 17:55:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google