要約
オンラインエピソード線形マルコフ決定プロセスにおける後悔の最小化を研究し、レート最適化 $\widetilde O (\sqrt K)$ 後悔を取得します。ここで $K$ はエピソード数を示します。
私たちの研究は、ポリシー最適化ベースのアプローチを使用して、バンディットフィードバックを使用した確率的設定での最適な (w.r.t.~$K$) 収束率を初めて確立したものであり、また、
完全な情報フィードバックを備えた敵対的なセットアップ。最適なレートを保証するアルゴリズムは現在知られていません。
要約(オリジナル)
We study regret minimization in online episodic linear Markov Decision Processes, and obtain rate-optimal $\widetilde O (\sqrt K)$ regret where $K$ denotes the number of episodes. Our work is the first to establish the optimal (w.r.t.~$K$) rate of convergence in the stochastic setting with bandit feedback using a policy optimization based approach, and the first to establish the optimal (w.r.t.~$K$) rate in the adversarial setup with full information feedback, for which no algorithm with an optimal rate guarantee is currently known.
arxiv情報
著者 | Uri Sherman,Alon Cohen,Tomer Koren,Yishay Mansour |
発行日 | 2023-08-28 15:16:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google