Nearly Optimal Latent State Decoding in Block MDPs

要約

エピソード ブロック MDP におけるモデル推定と無報酬学習の問題を調査します。
これらの MDP では、意思決定者は、少数の潜在状態から生成された豊富な観察結果またはコンテキストにアクセスできます。
最初に、固定された動作ポリシーの下で生成されたデータに基づいて、潜在状態デコード関数 (観測から潜在状態へのマッピング) を推定することに関心があります。
この関数を推定するための誤り率の情報理論的な下限を導出し、この基本的な限界に近づくアルゴリズムを提示します。
次に、アルゴリズムは、MDP のすべてのコンポーネントの推定値も提供します。
次に、報酬なしのフレームワークで最適に近いポリシーを学習する問題を研究します。
私たちの効率的なモデル推定アルゴリズムに基づいて、(収集されたサンプルの数が大きくなるにつれて) 可能な限り最高のレートで最適なポリシーに収束するポリシーを推測できることを示します。
興味深いことに、私たちの分析は、ブロック構造を活用することでサンプルの複雑さを改善し、最適に近いポリシーを特定するための必要十分条件を提供します。
これらの条件が満たされると、ミニマックス報酬なしの設定でのサンプルの複雑さは、乗法係数 $n$ によって改善されます。ここで、$n$ は可能なコンテキストの数です。

要約(オリジナル)

We investigate the problems of model estimation and reward-free learning in episodic Block MDPs. In these MDPs, the decision maker has access to rich observations or contexts generated from a small number of latent states. We are first interested in estimating the latent state decoding function (the mapping from the observations to latent states) based on data generated under a fixed behavior policy. We derive an information-theoretical lower bound on the error rate for estimating this function and present an algorithm approaching this fundamental limit. In turn, our algorithm also provides estimates of all the components of the MDP. We then study the problem of learning near-optimal policies in the reward-free framework. Based on our efficient model estimation algorithm, we show that we can infer a policy converging (as the number of collected samples grows large) to the optimal policy at the best possible rate. Interestingly, our analysis provides necessary and sufficient conditions under which exploiting the block structure yields improvements in the sample complexity for identifying near-optimal policies. When these conditions are met, the sample complexity in the minimax reward-free setting is improved by a multiplicative factor $n$, where $n$ is the number of possible contexts.

arxiv情報

著者 Yassir Jedra,Junghyun Lee,Alexandre Proutière,Se-Young Yun
発行日 2023-02-24 14:28:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ML, stat.TH パーマリンク