Reusing Historical Trajectories in Natural Policy Gradient via Importance Sampling: Convergence and Convergence Rate

要約

強化学習は、学習ベースの制御のための数学的枠組みを提供します。その成功は、利用できるデータの量に大きく依存します。
以前のポリシーから得られた履歴軌跡の効率的な利用は、ポリシーの最適化を促進するために不可欠です。
実証的証拠は、重要性のサンプリングに基づいたポリシーグラデーション方法がうまく機能することを示しています。
しかし、既存の文献はしばしば、異なる反復からの軌跡間の相互依存を無視し、優れた経験的パフォーマンスには厳密な理論的正当化が欠けています。
この論文では、重要なサンプリングを介して歴史的軌跡を再利用する自然政策勾配法のバリアントを研究します。
提案された勾配の推定量のバイアスは漸近的に無視できることを示し、結果のアルゴリズムは収束し、過去の軌跡を再利用することで収束速度の改善に役立ちます。
さらに、提案された推定器を、Trust Region Policy Optimizationなどの一般的なポリシー最適化アルゴリズムに適用します。
理論的な結果は、古典的なベンチマークで検証されています。

要約(オリジナル)

Reinforcement learning provides a mathematical framework for learning-based control, whose success largely depends on the amount of data it can utilize. The efficient utilization of historical trajectories obtained from previous policies is essential for expediting policy optimization. Empirical evidence has shown that policy gradient methods based on importance sampling work well. However, existing literature often neglect the interdependence between trajectories from different iterations, and the good empirical performance lacks a rigorous theoretical justification. In this paper, we study a variant of the natural policy gradient method with reusing historical trajectories via importance sampling. We show that the bias of the proposed estimator of the gradient is asymptotically negligible, the resultant algorithm is convergent, and reusing past trajectories helps improve the convergence rate. We further apply the proposed estimator to popular policy optimization algorithms such as trust region policy optimization. Our theoretical results are verified on classical benchmarks.

arxiv情報

著者 Yifan Lin,Yuhao Wang,Enlu Zhou
発行日 2025-03-05 18:14:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク