Rate-Optimal Policy Optimization for Linear Markov Decision Processes

要約

オンラインエピソード線形マルコフ決定プロセスにおける後悔の最小化を研究し、レート最適化 $\widetilde O (\sqrt K)$ 後悔を取得します。ここで $K$ はエピソード数を示します。
私たちの研究は、ポリシー最適化ベースのアプローチを使用して、バンディットフィードバックを使用した確率的設定での最適な (w.r.t.~$K$) 収束率を初めて確立したものであり、また、
完全な情報フィードバックを備えた敵対的なセットアップ。最適なレートを保証するアルゴリズムは現在知られていません。

要約(オリジナル)

We study regret minimization in online episodic linear Markov Decision Processes, and obtain rate-optimal $\widetilde O (\sqrt K)$ regret where $K$ denotes the number of episodes. Our work is the first to establish the optimal (w.r.t.~$K$) rate of convergence in the stochastic setting with bandit feedback using a policy optimization based approach, and the first to establish the optimal (w.r.t.~$K$) rate in the adversarial setup with full information feedback, for which no algorithm with an optimal rate guarantee is currently known.

arxiv情報

著者 Uri Sherman,Alon Cohen,Tomer Koren,Yishay Mansour
発行日 2023-08-28 15:16:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク