The regret lower bound for communicating Markov Decision Processes

要約

この論文は、問題依存設定におけるエルゴーディック マルコフ決定プロセス (MDP) を超えたリグレスの下限の拡張に特化しています。
エルゴーディック MDP のリグレス下限はよく知られており、扱いやすいアルゴリズムによって到達されますが、MDP の通信ではリグレス下限が大幅に複雑になることを証明します。
私たちの下限は、一貫した学習エージェントに必要な探索的行動を再考し、さらに、環境のすべての最適な領域は、最適でない領域と比較して過剰に訪問する必要があること、つまり、私たちが共探索と呼ぶ現象を説明します。
同時に、これら 2 つの探索的および共同探索的行動が、ナビゲーション構造を対数スケールで精査することによって得られるナビゲーション制約と絡み合っていることを示します。
結果として得られる下限は、MDP の多くの標準クラスにおいて、既存の結果を回復するために特殊化できる最適化問題の解として表現されます。
計算の観点から見ると、これは一般に $\Sigma_2^\textrm{P}$ 困難であることが証明されており、実際のところ、実行可能領域へのメンバーシップをテストすることさえ coNP 困難です。
さらに、建設的な方法で下限を近似するアルゴリズムを提供します。

要約(オリジナル)

This paper is devoted to the extension of the regret lower bound beyond ergodic Markov decision processes (MDPs) in the problem dependent setting. While the regret lower bound for ergodic MDPs is well-known and reached by tractable algorithms, we prove that the regret lower bound becomes significatively more complex in communicating MDPs. Our lower bound revisits the necessary explorative behavior of consistent learning agents and further explains that all optimal regions of the environment must be overvisited compared to sub-optimal ones, a phenomenon that we refer to as co-exploration. In tandem, we show that these two explorative and co-explorative behaviors are intertwined with navigation constraints obtained by scrutinizing the navigation structure at logarithmic scale. The resulting lower bound is expressed as the solution of an optimization problem that, in many standard classes of MDPs, can be specialized to recover existing results. From a computational perspective, it is provably $\Sigma_2^\textrm{P}$-hard in general and as a matter of fact, even testing the membership to the feasible region is coNP-hard. We further provide an algorithm to approximate the lower bound in a constructive way.

arxiv情報

著者 Victor Boone,Odalric-Ambrym Maillard
発行日 2025-01-22 16:56:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク