Asymptotically optimal regret in communicating Markov decision processes

要約

この論文では、通信仮定の下で平均報酬でマルコフ決定プロセスに対して漸近的に最適な後悔を達成する学習アルゴリズムを提示します。
つまり、通信マルコフの決定プロセス$ m $を考えると、アルゴリズムは$ k(m)\ log(t) + \ mathrm {o}(\ log(t))$を後悔しています。
このアルゴリズムは、一定の$ k(m)$を明示的に追跡して最適に学習することで機能し、その後、探査(情報を得るために最適に再生する)、共同普通(情報を得るために最適に再生)、搾取(最適に再生するために最大限に獲得する)間のトレードオフのバランスをとります。
さらに、関数$ k(m)$が不連続であることを示します。これは、私たちのアプローチにとって結果の課題です。
そのため、経験的データから任意の精度で$ k(m)$を推定する正則化メカニズムについて説明します。

要約(オリジナル)

In this paper, we present a learning algorithm that achieves asymptotically optimal regret for Markov decision processes in average reward under a communicating assumption. That is, given a communicating Markov decision process $M$, our algorithm has regret $K(M) \log(T) + \mathrm{o}(\log(T))$ where $T$ is the number of learning steps and $K(M)$ is the best possible constant. This algorithm works by explicitly tracking the constant $K(M)$ to learn optimally, then balances the trade-off between exploration (playing sub-optimally to gain information), co-exploration (playing optimally to gain information) and exploitation (playing optimally to score maximally). We further show that the function $K(M)$ is discontinuous, which is a consequence challenge for our approach. To that end, we describe a regularization mechanism to estimate $K(M)$ with arbitrary precision from empirical data.

arxiv情報

著者 Victor Boone
発行日 2025-05-23 16:11:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク