要約
高品質のQ値関数の学習は、多くの最新のオフポリシー深層強化学習(RL)アルゴリズムの成功に重要な役割を果たす。これまでの研究では、関数近似器とオフポリシー学習を採用した結果である、値の過大評価問題への対処に焦点を当てている。これは主に、再生バッファにあるより最適な行動サンプルと比較して、ベルマンアップデートにおいて現在のポリシーから劣る行動を使用することに関連している。我々は、この長い間無視されてきた現象が、潜在的にポリシーの学習を妨げ、サンプルの効率を低下させていると仮定する。この問題を解決するための我々の洞察は、探索の楽観性を維持しながら、過去の成功の十分な利用を組み込むことである。私たちは、過去のベストパフォーマーの行動と現在のポリシーの両方を用いてQ値を更新する、シンプルで効果的なアプローチであるBlended Exploitation and Exploration (BEE) オペレータを提案します。モデルフリーとモデルベースの両方における我々の手法のインスタンス化は、様々な連続制御タスクにおいて、最先端の手法を凌駕し、故障しやすいシナリオや実世界のロボットタスクにおいて強力な性能を達成することができる。
要約(オリジナル)
Learning high-quality Q-value functions plays a key role in the success of many modern off-policy deep reinforcement learning (RL) algorithms. Previous works focus on addressing the value overestimation issue, an outcome of adopting function approximators and off-policy learning. Deviating from the common viewpoint, we observe that Q-values are indeed underestimated in the latter stage of the RL training process, primarily related to the use of inferior actions from the current policy in Bellman updates as compared to the more optimal action samples in the replay buffer. We hypothesize that this long-neglected phenomenon potentially hinders policy learning and reduces sample efficiency. Our insight to address this issue is to incorporate sufficient exploitation of past successes while maintaining exploration optimism. We propose the Blended Exploitation and Exploration (BEE) operator, a simple yet effective approach that updates Q-value using both historical best-performing actions and the current policy. The instantiations of our method in both model-free and model-based settings outperform state-of-the-art methods in various continuous control tasks and achieve strong performance in failure-prone scenarios and real-world robot tasks.
arxiv情報
| 著者 | Tianying Ji,Yu Luo,Fuchun Sun,Xianyuan Zhan,Jianwei Zhang,Huazhe Xu |
| 発行日 | 2023-06-05 13:38:14+00:00 |
| arxivサイト | arxiv_id(pdf) |