要約
俳優の批判的な方法は、そのスケーラビリティに広く使用されていますが、無限帯の平均報酬マルコフ決定プロセス(MDP)の既存の理論的保証は、しばしば制限的な緊張性の仮定に依存しています。
バッチングを伴う自然な俳優criticであるNac-Bを提案します。これは、$ \ tilde {o}(\ sqrt {t})$の順序最適な後悔を達成します。
この仮定は、古典的なポリシーグラデーション定理が平均報酬設定に対して有効なままである最も弱いものの1つです。
NAC-Bは、俳優と批評家の両方に関数近似を採用し、大規模な状態およびアクションスペースの問題に対するスケーラビリティを可能にします。
アルゴリズムでのバッチの使用は、MDPの潜在的な周期性を緩和し、勾配推定の確率を低下させるのに役立ち、分析は定数の$ c _ {\ text {hit}} $および$ c _ {\ text {tar}}の導入を通じてこれらの利点を形成します。
要約(オリジナル)
Actor-Critic methods are widely used for their scalability, yet existing theoretical guarantees for infinite-horizon average-reward Markov Decision Processes (MDPs) often rely on restrictive ergodicity assumptions. We propose NAC-B, a Natural Actor-Critic with Batching, that achieves order-optimal regret of $\tilde{O}(\sqrt{T})$ in infinite-horizon average-reward MDPs under the unichain assumption, which permits both transient states and periodicity. This assumption is among the weakest under which the classic policy gradient theorem remains valid for average-reward settings. NAC-B employs function approximation for both the actor and the critic, enabling scalability to problems with large state and action spaces. The use of batching in our algorithm helps mitigate potential periodicity in the MDP and reduces stochasticity in gradient estimates, and our analysis formalizes these benefits through the introduction of the constants $C_{\text{hit}}$ and $C_{\text{tar}}$, which characterize the rate at which empirical averages over Markovian samples converge to the stationary distribution.
arxiv情報
著者 | Swetha Ganesh,Vaneet Aggarwal |
発行日 | 2025-05-26 13:43:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google