要約
複雑な確率システムの強化学習では、以前の反復で収集された履歴サンプルからの情報を効果的に活用して、ポリシーの最適化を加速することが望ましいです。
古典的な経験の再現は効果的ではありますが、すべての観察を均一に扱い、その相対的な重要性を無視します。
この制限に対処するために、新しい Variance Reduction Experience Replay (VRER) フレームワークを導入し、関連するサンプルを選択的に再利用してポリシー勾配推定を改善できるようにします。
VRER は、さまざまなポリシー最適化アルゴリズムとシームレスに統合できる適応可能な手法であり、VRER によるポリシー最適化 (PG-VRER) として知られるサンプル効率の高いオフポリシー アルゴリズムの基礎を形成します。
さらに、文献には経験再生法に関する厳密な理論的理解が欠けているため、マルコフノイズと行動ポリシーの相互依存性によって引き起こされるサンプル依存性を説明する新しい理論的枠組みを導入する動機となっています。
次に、このフレームワークを使用して VRER ベースのポリシー最適化アルゴリズムの有限時間収束を分析し、ポリシー勾配推定における重要なバイアスと分散のトレードオフを明らかにします。つまり、古い経験の再利用により、バイアスが増大すると同時に勾配分散が減少します。
広範な実験により、VRER が最適なポリシーの学習を大幅に加速し、最先端 (SOTA) ポリシー最適化アプローチのパフォーマンスを向上させることが示されました。
要約(オリジナル)
For reinforcement learning on complex stochastic systems, it is desirable to effectively leverage the information from historical samples collected in previous iterations to accelerate policy optimization. Classical experience replay, while effective, treats all observations uniformly, neglecting their relative importance. To address this limitation, we introduce a novel Variance Reduction Experience Replay (VRER) framework, enabling the selective reuse of relevant samples to improve policy gradient estimation. VRER, as an adaptable method that can seamlessly integrate with different policy optimization algorithms, forms the foundation of our sample-efficient off-policy algorithm known as Policy Optimization with VRER (PG-VRER). Furthermore, the lack of a rigorous theoretical understanding of the experience replay method in the literature motivates us to introduce a novel theoretical framework that accounts for sample dependencies induced by Markovian noise and behavior policy interdependencies. This framework is then employed to analyze the finite-time convergence of our VRER-based policy optimization algorithm, revealing a crucial bias-variance trade-off in policy gradient estimates: the reuse of old experience introduces increased bias while simultaneously reducing gradient variance. Extensive experiments have shown that VRER offers a notable acceleration in learning optimal policies and enhances the performance of state-of-the-art (SOTA) policy optimization approaches.
arxiv情報
著者 | Hua Zheng,Wei Xie,M. Ben Feng |
発行日 | 2024-02-19 15:00:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google