要約
ほとんどの強化学習アルゴリズムは、エクスペリエンス再生バッファーを利用して、エージェントが過去に観察したサンプルで繰り返しトレーニングします。
すべてのサンプルが同じ重要性を持っているわけではなく、単に各サンプルに同じ重要性を割り当てるのは単純な戦略です。
この論文では、サンプルからどれだけ学べるかに基づいてサンプルに優先順位を付ける方法を提案します。
サンプルの学習能力を、このサンプルに関連するトレーニング損失の時間の経過に伴う着実な減少として定義します。
私たちは、学習能力の高いサンプルに優先順位を付け、通常はノイズや確率性が原因で学習が難しいサンプルには低い優先順位を割り当てるアルゴリズムを開発しました。
私たちは、私たちの方法がランダムサンプリングよりも堅牢であり、トレーニング損失、つまり、優先順位付きエクスペリエンス再生で使用される時間差損失に関して単に優先順位を付けるよりも優れていることを経験的に示しています。
要約(オリジナル)
Most reinforcement learning algorithms take advantage of an experience replay buffer to repeatedly train on samples the agent has observed in the past. Not all samples carry the same amount of significance and simply assigning equal importance to each of the samples is a na\’ive strategy. In this paper, we propose a method to prioritize samples based on how much we can learn from a sample. We define the learn-ability of a sample as the steady decrease of the training loss associated with this sample over time. We develop an algorithm to prioritize samples with high learn-ability, while assigning lower priority to those that are hard-to-learn, typically caused by noise or stochasticity. We empirically show that our method is more robust than random sampling and also better than just prioritizing with respect to the training loss, i.e. the temporal difference loss, which is used in prioritized experience replay.
arxiv情報
著者 | Shivakanth Sujit,Somjit Nath,Pedro H. M. Braga,Samira Ebrahimi Kahou |
発行日 | 2023-11-01 15:06:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google