要約
私たちは、オンライン制約付きマルコフ決定プロセス (CMDP) のための主双対 (PD) 強化学習 (RL) アルゴリズムを研究します。
広範な実用化にもかかわらず、この問題に対する PD-RL アルゴリズムに関する既存の理論文献は、サブリニアリグレス保証を提供するだけであり、最適なポリシーへの収束を保証できません。
この論文では、均一おそらく近似正しさ (Uniform-PAC) を保証する新しいポリシー勾配 PD アルゴリズムを導入し、同時に最適なポリシー、サブリニアリグレス、およびあらゆるターゲット精度に対する多項式サンプルの複雑さへの収束を保証します。
特に、これはオンライン CMDP 問題に対する最初のユニフォーム PAC アルゴリズムを表しています。
理論的な保証に加えて、ベースライン アルゴリズムが振動的なパフォーマンスと制約違反を示す一方で、アルゴリズムが最適なポリシーに収束することを単純な CMDP で実証します。
要約(オリジナル)
We study a primal-dual (PD) reinforcement learning (RL) algorithm for online constrained Markov decision processes (CMDPs). Despite its widespread practical use, the existing theoretical literature on PD-RL algorithms for this problem only provides sublinear regret guarantees and fails to ensure convergence to optimal policies. In this paper, we introduce a novel policy gradient PD algorithm with uniform probably approximate correctness (Uniform-PAC) guarantees, simultaneously ensuring convergence to optimal policies, sublinear regret, and polynomial sample complexity for any target accuracy. Notably, this represents the first Uniform-PAC algorithm for the online CMDP problem. In addition to the theoretical guarantees, we empirically demonstrate in a simple CMDP that our algorithm converges to optimal policies, while baseline algorithms exhibit oscillatory performance and constraint violation.
arxiv情報
著者 | Toshinori Kitamura,Tadashi Kozuno,Masahiro Kato,Yuki Ichihara,Soichiro Nishimori,Akiyoshi Sannai,Sho Sonoda,Wataru Kumagai,Yutaka Matsuo |
発行日 | 2024-07-01 12:08:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google