要約
生成モデルのもとで、平均報酬マルコフ決定プロセス (MDP) における $\varepsilon$ 最適政策を学習するサンプルの複雑さを研究します。
複雑さの限界 $\widetilde{O}\left(SA\frac{H}{\varepsilon^2} \right)$ を確立します。ここで、$H$ は最適なポリシーのバイアス関数のスパンであり、$SA$ は
は状態アクション空間のカーディナリティです。
私たちの結果は、すべてのパラメーター $S,A,H$ および $\varepsilon$ においてミニマックス最適 (対数因子まで) となる最初の結果であり、すべてのポリシーに対して均一に制限された混合時間を仮定するか、次善の依存関係を持つ既存の研究を改善しています。
パラメータ。
私たちの結果は、平均報酬 MDP を割引 MDP に削減することに基づいています。
この削減の最適性を確立するために、$\gamma$ 割引 MDP の改善された境界を開発し、 $\widetilde{O}\left(SA\frac{H}{(1-\gamma)^2\varepsilon^ を示します
2} \right)$ サンプルは、よく知られている下限を回避する $\gamma \geq 1 – \frac{1}{H}$ という体制の下で MDP を弱く通信する場合の $\varepsilon$ 最適ポリシーを学習するのに十分です
一般的な $\gamma$ 割引 MDP の $\widetilde{\Omega}\left(SA\frac{1}{(1-\gamma)^3\varepsilon^2} \right)$ です。
私たちの分析では、スパン パラメーターに関して特定のインスタンス依存の分散パラメーターの上限を開発します。
これらの境界は、混合時間や MDP の直径に基づく境界よりも厳しく、より広範囲に使用できる可能性があります。
要約(オリジナル)
We study the sample complexity of learning an $\varepsilon$-optimal policy in an average-reward Markov decision process (MDP) under a generative model. We establish the complexity bound $\widetilde{O}\left(SA\frac{H}{\varepsilon^2} \right)$, where $H$ is the span of the bias function of the optimal policy and $SA$ is the cardinality of the state-action space. Our result is the first that is minimax optimal (up to log factors) in all parameters $S,A,H$ and $\varepsilon$, improving on existing work that either assumes uniformly bounded mixing times for all policies or has suboptimal dependence on the parameters. Our result is based on reducing the average-reward MDP to a discounted MDP. To establish the optimality of this reduction, we develop improved bounds for $\gamma$-discounted MDPs, showing that $\widetilde{O}\left(SA\frac{H}{(1-\gamma)^2\varepsilon^2} \right)$ samples suffice to learn a $\varepsilon$-optimal policy in weakly communicating MDPs under the regime that $\gamma \geq 1 – \frac{1}{H}$, circumventing the well-known lower bound of $\widetilde{\Omega}\left(SA\frac{1}{(1-\gamma)^3\varepsilon^2} \right)$ for general $\gamma$-discounted MDPs. Our analysis develops upper bounds on certain instance-dependent variance parameters in terms of the span parameter. These bounds are tighter than those based on the mixing time or diameter of the MDP and may be of broader use.
arxiv情報
著者 | Matthew Zurek,Yudong Chen |
発行日 | 2023-11-22 15:34:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google