Sample-Efficient Constrained Reinforcement Learning with General Parameterization

要約

制約付きマルコフ決定問題 (CMDP) について考えます。エージェントの目標は、コストの予想割引合計が特定のしきい値を超えることを保証しながら、無限の期間にわたって報酬の予想割引合計を最大化することです。
運動量ベースの加速のアイデアに基づいて、$\epsilon$ グローバル最適性ギャップと $\tilde{\mathcal による $\epsilon$ 制約違反を保証する Primal-Dual Accelerated Natural Policy Gradient (PD-ANPG) アルゴリズムを開発します。
{O}}(\epsilon^{-2})$ パラメータ化された一般的なポリシーのサンプルの複雑さ。
これにより、一般的なパラメーター化された CMDP における最先端のサンプルの複雑さが $\mathcal{O}(\epsilon^{-2})$ 倍改善され、理論的な下限が達成されます。

要約(オリジナル)

We consider a constrained Markov Decision Problem (CMDP) where the goal of an agent is to maximize the expected discounted sum of rewards over an infinite horizon while ensuring that the expected discounted sum of costs exceeds a certain threshold. Building on the idea of momentum-based acceleration, we develop the Primal-Dual Accelerated Natural Policy Gradient (PD-ANPG) algorithm that guarantees an $\epsilon$ global optimality gap and $\epsilon$ constraint violation with $\tilde{\mathcal{O}}(\epsilon^{-2})$ sample complexity for general parameterized policies. This improves the state-of-the-art sample complexity in general parameterized CMDPs by a factor of $\mathcal{O}(\epsilon^{-2})$ and achieves the theoretical lower bound.

arxiv情報

著者 Washim Uddin Mondal,Vaneet Aggarwal
発行日 2024-07-23 12:04:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク