要約
目標条件付き強化学習 (GCRL) では、報酬がまばらであることが大きな課題となり、効率的な学習が妨げられることがよくあります。
マルチステップ GCRL はこの効率を高めることができますが、目標値にポリシーから外れたバイアスが生じる可能性もあります。
この論文では、これらのバイアスを深く掘り下げ、「シューティング」と「シフト」という 2 つの異なるカテゴリに分類します。
特定の行動ポリシーによってポリシーの改良が促進される可能性があることを認識し、これらのバイアスの欠点を最小限に抑えながらそのポジティブな側面を活用するように設計されたソリューションを提示します。これにより、GCRL を高速化するためにより大きなステップ サイズの使用が可能になります。
実証研究では、私たちのアプローチが 10 ステップの学習シナリオであっても回復力と堅牢な改善を保証し、ベースラインやいくつかの最先端のマルチステップ GCRL ベンチマークを概して上回る優れた学習効率とパフォーマンスをもたらすことが実証されています。
要約(オリジナル)
In goal-conditioned reinforcement learning (GCRL), sparse rewards present significant challenges, often obstructing efficient learning. Although multi-step GCRL can boost this efficiency, it can also lead to off-policy biases in target values. This paper dives deep into these biases, categorizing them into two distinct categories: ‘shooting’ and ‘shifting’. Recognizing that certain behavior policies can hasten policy refinement, we present solutions designed to capitalize on the positive aspects of these biases while minimizing their drawbacks, enabling the use of larger step sizes to speed up GCRL. An empirical study demonstrates that our approach ensures a resilient and robust improvement, even in ten-step learning scenarios, leading to superior learning efficiency and performance that generally surpass the baseline and several state-of-the-art multi-step GCRL benchmarks.
arxiv情報
著者 | Lisheng Wu,Ke Chen |
発行日 | 2023-11-29 11:59:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google