On the Second-Order Convergence of Biased Policy Gradient Algorithms

要約

強化学習問題の目的関数は一般に高度に非凸であるため、最も一般的なアルゴリズムであるポリシー勾配が鞍点を回避して 2 次の定常点に到達することが望ましいです。
既存の結果では、不偏勾配推定器を備えたバニラ ポリシー勾配アルゴリズムのみが考慮されていますが、無限ホライズンの割引報酬設定での実際の実装は、有限ホライズン サンプリングによりバイアスがかかります。
さらに、二次収束がまだ確立されていないアクター-クリティカル法も、価値関数のクリティカル近似によりバイアスがかかります。
我々は、軌跡のモンテカルロサンプリングから計算されたバニラ勾配推定器やダブルループのアクター-クリティカルアルゴリズムを含む、偏った政策勾配法の新しい二次分析を提供します。内部ループではクリティカルが次の近似を改善します。
TD(0) 学習による値関数。
それとは別に、初期状態分布に関係なくマルコフ連鎖上の TD(0) の収束も確立します。

要約(オリジナル)

Since the objective functions of reinforcement learning problems are typically highly nonconvex, it is desirable that policy gradient, the most popular algorithm, escapes saddle points and arrives at second-order stationary points. Existing results only consider vanilla policy gradient algorithms with unbiased gradient estimators, but practical implementations under the infinite-horizon discounted reward setting are biased due to finite-horizon sampling. Moreover, actor-critic methods, whose second-order convergence has not yet been established, are also biased due to the critic approximation of the value function. We provide a novel second-order analysis of biased policy gradient methods, including the vanilla gradient estimator computed from Monte-Carlo sampling of trajectories as well as the double-loop actor-critic algorithm, where in the inner loop the critic improves the approximation of the value function via TD(0) learning. Separately, we also establish the convergence of TD(0) on Markov chains irrespective of initial state distribution.

arxiv情報

著者 Siqiao Mu,Diego Klabjan
発行日 2024-02-01 16:42:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク