要約
ブートストラップは、深層強化学習の成功の多くの背後にあります。
ただし、ブートストラップを介して値関数を学習すると、ターゲット値が急速に変化するため、トレーニングが不安定になることがよくあります。
ターゲット ネットワークは、追加の遅延パラメーターのセットを使用してターゲット値を推定することにより、トレーニングを安定化するために使用されます。
ターゲット ネットワークの人気にもかかわらず、最適化に対するターゲット ネットワークの効果は依然として誤解されています。
この研究では、これらが暗黙的な正則化機能として機能することを示します。これは場合によっては有益ですが、バニラ TD(0) が収束する場合でも柔軟性に欠け、不安定性が生じる可能性があるなどの欠点もあります。
これらの問題を克服するために、柔軟で関数空間の凸正則化を行う明示的な関数正則化の代替案を提案し、その収束を理論的に研究します。
私たちは、パフォーマンス、精度、安定性の観点から、ターゲット ネットワークと機能的正則化によって引き起こされる正則化の有効性を調査するために、さまざまな環境、割引係数、およびポリシー外のデータ収集にわたって実験的研究を実施します。
私たちの調査結果は、機能的正則化がターゲット ネットワークのドロップイン代替品として使用でき、結果としてパフォーマンスが向上することを強調しています。
さらに、機能的正則化で正則化の重みとネットワーク更新期間の両方を調整すると、ターゲット ネットワークで通常行われるようにネットワーク更新期間のみを調整する場合と比較して、パフォーマンスがさらに向上する可能性があります。
私たちのアプローチは、ネットワークが正確な $Q$ 値を回復する能力も強化します。
要約(オリジナル)
Bootstrapping is behind much of the successes of deep Reinforcement Learning. However, learning the value function via bootstrapping often leads to unstable training due to fast-changing target values. Target Networks are employed to stabilize training by using an additional set of lagging parameters to estimate the target values. Despite the popularity of Target Networks, their effect on the optimization is still misunderstood. In this work, we show that they act as an implicit regularizer which can be beneficial in some cases, but also have disadvantages such as being inflexible and can result in instabilities, even when vanilla TD(0) converges. To overcome these issues, we propose an explicit Functional Regularization alternative that is flexible and a convex regularizer in function space and we theoretically study its convergence. We conduct an experimental study across a range of environments, discount factors, and off-policiness data collections to investigate the effectiveness of the regularization induced by Target Networks and Functional Regularization in terms of performance, accuracy, and stability. Our findings emphasize that Functional Regularization can be used as a drop-in replacement for Target Networks and result in performance improvement. Furthermore, adjusting both the regularization weight and the network update period in Functional Regularization can result in further performance improvements compared to solely adjusting the network update period as typically done with Target Networks. Our approach also enhances the ability to networks to recover accurate $Q$-values.
arxiv情報
著者 | Alexandre Piché,Valentin Thomas,Rafael Pardinas,Joseph Marino,Gian Maria Marconi,Christopher Pal,Mohammad Emtiyaz Khan |
発行日 | 2023-09-07 15:50:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google