Regret Analysis of Policy Gradient Algorithm for Infinite Horizon Average Reward Markov Decision Processes

要約

この論文では、無限の水平線の平均報酬マルコフ決定プロセス (MDP) を検討します。
この文脈における既存の研究とは区別して、私たちのアプローチは一般的なポリシー勾配ベースのアルゴリズムの力を利用し、線形 MDP 構造を仮定する制約から解放します。
我々は、ポリシー勾配ベースのアルゴリズムを提案し、そのグローバル収束特性を示します。
次に、提案されたアルゴリズムには $\tilde{\mathcal{O}}({T}^{3/4})$ の後悔があることを証明します。
注目すべきことに、この論文は、平均報酬シナリオのコンテキストにおける一般的なパラメーター化されたポリシー勾配アルゴリズムのリグレスバウンド計算の最初の調査を提示することで、先駆的な取り組みを示しています。

要約(オリジナル)

In this paper, we consider an infinite horizon average reward Markov Decision Process (MDP). Distinguishing itself from existing works within this context, our approach harnesses the power of the general policy gradient-based algorithm, liberating it from the constraints of assuming a linear MDP structure. We propose a policy gradient-based algorithm and show its global convergence property. We then prove that the proposed algorithm has $\tilde{\mathcal{O}}({T}^{3/4})$ regret. Remarkably, this paper marks a pioneering effort by presenting the first exploration into regret-bound computation for the general parameterized policy gradient algorithm in the context of average reward scenarios.

arxiv情報

著者 Qinbo Bai,Washim Uddin Mondal,Vaneet Aggarwal
発行日 2023-12-13 18:41:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク