要約
私たちの研究では、一般的なポリシーのパラメータ化を使用した平均報酬強化学習を詳しく調べます。
この領域内では、現在の保証は次善の保証に達していない、または混合時間についての事前の知識を必要とします。
これらの問題に対処するために、マルチレベル モンテカルロと Natural Actor Critic を統合する手法である Randomized Accelerated Natural Actor Critic を導入します。
私たちのアプローチは、混合時間の知識を必要とせずに $\tilde{\mathcal{O}}(1/\sqrt{T})$ のグローバル収束率を初めて達成し、最先端の限界を大幅に超えています。
$\チルダ{\mathcal{O}}(1/T^{1/4})$。
要約(オリジナル)
In our study, we delve into average-reward reinforcement learning with general policy parametrization. Within this domain, current guarantees either fall short with suboptimal guarantees or demand prior knowledge of mixing time. To address these issues, we introduce Randomized Accelerated Natural Actor Critic, a method that integrates Multi-level Monte-Carlo and Natural Actor Critic. Our approach is the first to achieve global convergence rate of $\tilde{\mathcal{O}}(1/\sqrt{T})$ without requiring knowledge of mixing time, significantly surpassing the state-of-the-art bound of $\tilde{\mathcal{O}}(1/T^{1/4})$.
arxiv情報
著者 | Swetha Ganesh,Vaneet Aggarwal |
発行日 | 2024-07-26 17:16:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google