要約
正規化された線形プログラミング定式化の最近の進歩と確率的近似の古典理論を組み合わせることにより、補強学習を研究します。
ポリシー検査を維持しながらポリシー外データを活用するアルゴリズムを設計するという課題に動機付けられ、正規化されたマルコフ決定プロセス(MDP)を解決するための新規のプライマルデュアル投影勾配降下アルゴリズムであるPGDA-RLを提案します。
PGDA-RLは、エクスペリエンスリプレイベースのグラデーション推定と、基礎となるネストされた最適化問題の2回の分解と統合されます。
アルゴリズムは非同期に動作し、相関データの単一の軌跡を介して環境と相互作用し、基礎となるMDPの職業測定に関連する二重変数に応じてオンラインでポリシーを更新します。
PGDA-RLが、正規化されたMDPの最適な値関数とポリシーにほぼ確実に収束することを証明します。
収束分析は、確率的近似理論からのツールに依存しており、既存のプライマルデュアルRLアプローチで必要なものよりも弱い仮定の下で保持され、特にシミュレーターまたは固定行動ポリシーの必要性を削除します。
要約(オリジナル)
We study reinforcement learning by combining recent advances in regularized linear programming formulations with the classical theory of stochastic approximation. Motivated by the challenge of designing algorithms that leverage off-policy data while maintaining on-policy exploration, we propose PGDA-RL, a novel primal-dual Projected Gradient Descent-Ascent algorithm for solving regularized Markov Decision Processes (MDPs). PGDA-RL integrates experience replay-based gradient estimation with a two-timescale decomposition of the underlying nested optimization problem. The algorithm operates asynchronously, interacts with the environment through a single trajectory of correlated data, and updates its policy online in response to the dual variable associated with the occupation measure of the underlying MDP. We prove that PGDA-RL converges almost surely to the optimal value function and policy of the regularized MDP. Our convergence analysis relies on tools from stochastic approximation theory and holds under weaker assumptions than those required by existing primal-dual RL approaches, notably removing the need for a simulator or a fixed behavioral policy.
arxiv情報
著者 | Axel Friedrich Wolter,Tobias Sutter |
発行日 | 2025-05-07 15:18:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google