要約
ブートストラッピングは、ディープ強化学習の成功の多くを支えている。しかし、ブートストラッピングで価値関数を学習すると、目標値が高速に変化するため、学習が不安定になることが多い。ターゲットネットワークは、ターゲット値を推定するために遅延パラメータの追加セットを使用することにより、学習を安定させるために採用される。ターゲットネットワークの人気にもかかわらず、最適化に対するその効果はまだ誤解されている。本研究では、ターゲット・ネットワークが暗黙の正則化器として機能することを示す。この正則化には、柔軟性に欠ける、凸でないなどの欠点がある。これらの問題を克服するために、我々は、関数空間における凸正則化であり、簡単に調整できる明示的な関数正則化を提案する。本手法の収束性を理論的に解析し、ターゲットネットワークをより理論的根拠のある関数正則化アプローチに置き換えることで、より優れたサンプル効率と性能向上が得られることを実証的に示す。
要約(オリジナル)
Bootstrapping is behind much of the successes of Deep Reinforcement Learning. However, learning the value function via bootstrapping often leads to unstable training due to fast-changing target values. Target Networks are employed to stabilize training by using an additional set of lagging parameters to estimate the target values. Despite the popularity of Target Networks, their effect on the optimization is still misunderstood. In this work, we show that they act as an implicit regularizer. This regularizer has disadvantages such as being inflexible and non convex. To overcome these issues, we propose an explicit Functional Regularization that is a convex regularizer in function space and can easily be tuned. We analyze the convergence of our method theoretically and empirically demonstrate that replacing Target Networks with the more theoretically grounded Functional Regularization approach leads to better sample efficiency and performance improvements.
arxiv情報
著者 | Alexandre Piche,Valentin Thomas,Joseph Marino,Rafael Pardinas,Gian Maria Marconi,Christopher Pal,Mohammad Emtiyaz Khan |
発行日 | 2024-01-03 17:02:21+00:00 |
arxivサイト | arxiv_id(pdf) |