要約
無限水平線平均報酬マルコフ決定プロセスのコンテキストにおける一般的なパラメータ化を備えた 2 つのポリシー勾配ベースの手法を紹介します。
最初のアプローチでは、分散を削減するために暗黙的勾配トランスポートを使用し、次数 $\tilde{\mathcal{O}}(T^{3/5})$ の予想されるリアクションを確実にします。
2 番目のアプローチは、ヘッセ行列ベースの手法に根ざしており、次数 $\tilde{\mathcal{O}}(\sqrt{T})$ の予期される後悔を確実にします。
これらの結果は、問題の最先端技術を大幅に改善し、$\tilde{\mathcal{O}}(T^{3/4})$ という残念な結果を達成しました。
要約(オリジナル)
We present two Policy Gradient-based methods with general parameterization in the context of infinite horizon average reward Markov Decision Processes. The first approach employs Implicit Gradient Transport for variance reduction, ensuring an expected regret of the order $\tilde{\mathcal{O}}(T^{3/5})$. The second approach, rooted in Hessian-based techniques, ensures an expected regret of the order $\tilde{\mathcal{O}}(\sqrt{T})$. These results significantly improve the state of the art of the problem, which achieves a regret of $\tilde{\mathcal{O}}(T^{3/4})$.
arxiv情報
著者 | Swetha Ganesh,Washim Uddin Mondal,Vaneet Aggarwal |
発行日 | 2024-04-02 17:08:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google