要約
強化学習では、エージェントは環境相互作用を通じて状態情報と報酬を収集します。これは、ポリシーの改良に不可欠です。
このプロセスは、特に複雑なロボット シミュレーションや現実世界のアプリケーションでは、特に時間がかかります。
従来のアルゴリズムは通常、サンプルの単一バッチを処理した後に環境に再度関与するため、履歴データを十分に活用できません。
ただし、頻繁に観察される状態は信頼性の高い値推定値があり、最小限の更新が必要です。
対照的に、まれに観察される状態では、正確な値の推定を達成するために、より集中的な更新が必要になります。
不均一なサンプル利用に対処するために、私たちはノベルティに基づくサンプル再利用 (NSR) を提案します。
NSR は、頻度の低い新しい状態に対して追加の更新を提供し、頻繁な状態に対しては追加の更新をスキップして、環境と再度対話する前にサンプルの使用を最大限に高めます。
私たちの実験では、NSR が時間を大幅に増加させることなく、アルゴリズムの収束率と成功率を向上させることが示されました。
私たちのコードは https://github.com/ppksigs/NSR-DDPG-HER で公開されています。
要約(オリジナル)
In reinforcement learning, agents collect state information and rewards through environmental interactions, essential for policy refinement. This process is notably time-consuming, especially in complex robotic simulations and real-world applications. Traditional algorithms usually re-engage with the environment after processing a single batch of samples, thereby failing to fully capitalize on historical data. However, frequently observed states, with reliable value estimates, require minimal updates; in contrast, rare observed states necessitate more intensive updates for achieving accurate value estimations. To address uneven sample utilization, we propose Novelty-guided Sample Reuse (NSR). NSR provides extra updates for infrequent, novel states and skips additional updates for frequent states, maximizing sample use before interacting with the environment again. Our experiments show that NSR improves the convergence rate and success rate of algorithms without significantly increasing time consumption. Our code is publicly available at https://github.com/ppksigs/NSR-DDPG-HER.
arxiv情報
著者 | Ke Duan,Kai Yang,Houde Liu,Xueqian Wang |
発行日 | 2024-10-17 12:34:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google