Reusing Trajectories in Policy Gradients Enables Fast Convergence

要約

ポリシーグラジエント(PG)メソッドは、特に継続的な制御問題を扱う場合、効果的な強化学習アルゴリズムのクラスです。
これらのメソッドは、通常、ポリシー勾配データを使用してポリシー勾配を推定するために、確率的勾配上昇を介してパラメトリックポリシーのパラメーターを学習します。
ただし、このような新鮮なデータに依存すると、サンプルが効率的になります。
実際、バニラPGメソッドは、$ o(\ epsilon^{-2})$軌道を必要とし、$ \ epsilon $ approximateの定常点に到達します。
効率を改善するための一般的な戦略は、以前の勾配や軌跡など、過去の反復からオフポリシー情報を再利用することです。
勾配の再利用はかなりの理論的注目を集めており、$ o(\ epsilon^{-3/2})$のレートの改善につながりますが、過去の軌跡の再利用は理論的な観点からはほとんど未踏のままです。
この作業では、過去のオフポリシーの軌跡の広範な再利用がPGメソッドの収束を大幅に加速できるという最初の厳密な理論的証拠を提供します。
複数の重要な重み付け推定器に電力平均補正を導入し、ポリシー更新の古い軌跡と新しい軌跡を組み合わせたPGアルゴリズムであるRPG(レトロスペクティブポリシーグラデーション)を提案します。
新しい分析を通じて、確立された仮定の下で、RPGは、文献で最も既知のレートである$ \ widetilde {o}(\ epsilon^{-1})$のサンプルの複雑さを達成することを示します。
さらに、最先端のレートでPGメソッドに対するアプローチを経験的に検証します。

要約(オリジナル)

Policy gradient (PG) methods are a class of effective reinforcement learning algorithms, particularly when dealing with continuous control problems. These methods learn the parameters of parametric policies via stochastic gradient ascent, typically using on-policy trajectory data to estimate the policy gradient. However, such reliance on fresh data makes them sample-inefficient. Indeed, vanilla PG methods require $O(\epsilon^{-2})$ trajectories to reach an $\epsilon$-approximate stationary point. A common strategy to improve efficiency is to reuse off-policy information from past iterations, such as previous gradients or trajectories. While gradient reuse has received substantial theoretical attention, leading to improved rates of $O(\epsilon^{-3/2})$, the reuse of past trajectories remains largely unexplored from a theoretical perspective. In this work, we provide the first rigorous theoretical evidence that extensive reuse of past off-policy trajectories can significantly accelerate convergence in PG methods. We introduce a power mean correction to the multiple importance weighting estimator and propose RPG (Retrospective Policy Gradient), a PG algorithm that combines old and new trajectories for policy updates. Through a novel analysis, we show that, under established assumptions, RPG achieves a sample complexity of $\widetilde{O}(\epsilon^{-1})$, the best known rate in the literature. We further validate empirically our approach against PG methods with state-of-the-art rates.

arxiv情報

著者 Alessandro Montenegro,Federico Mansutti,Marco Mussi,Matteo Papini,Alberto Maria Metelli
発行日 2025-06-06 15:42:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク