Truncated Variance Reduced Value Iteration

要約

私たちは、$A_{\text{tot}}$-状態-アクションのペア、制限された報酬、および割引係数 $\gamma$ を使用した割引マルコフ決定プロセスで $\epsilon$ 最適政策を計算するための、より高速なランダム化アルゴリズムを提供します。
$\tilde{O}(A_{\text{tot}}[(1 – \gamma)^{-3}\epsilon^{-2} + (1 – \gamma)^{-2}] を提供します。
サンプリング設定における)$-time アルゴリズム。確率遷移行列は不明ですが、$\tilde{O}(1)$-time および $\tilde{O}(
確率遷移行列が既知で $s$-sparse なオフライン設定での s + (1-\gamma)^{-2})$-time アルゴリズム。
これらの結果は、 $\tilde{O}(A_{\text{tot}}[(1 – \gamma)^{-3}\epsilon^{-2 で実行された以前の最先端技術を改善しています。
} + (1 – \gamma)^{-3}])$ time [Sidford, Wang, Wu, Ye 2018] サンプリング設定、$\tilde{O}(s + A_{\text{tot}} (
オフライン設定での 1-\gamma)^{-3})$ 時間 [Sidford, Wang, Wu, Yang, Ye 2018]、または線形計画法の内点法を使用した状態数の少なくとも 2 次の時間。
私たちは、以前の確率的分散を低減した値の反復法 [Sidford、Wang、Wu、Yang、Ye 2018] に基づいて結果を達成しました。
ステップを実装するために導入した新しい分散を低減したサンプリング手順の分散を改善するために、反復の進行状況を慎重に切り捨てるバリアントを提供します。
私たちのメソッドは本質的にモデルフリーであり、生成モデルへのアクセスが与えられれば $\tilde{O}(A_{\text{tot}})$-space に実装できます。
その結果、我々の結果は、モデルフリーの方法とモデルベースの方法の間のサンプル複雑さのギャップを埋める一歩を踏み出しました。

要約(オリジナル)

We provide faster randomized algorithms for computing an $\epsilon$-optimal policy in a discounted Markov decision process with $A_{\text{tot}}$-state-action pairs, bounded rewards, and discount factor $\gamma$. We provide an $\tilde{O}(A_{\text{tot}}[(1 – \gamma)^{-3}\epsilon^{-2} + (1 – \gamma)^{-2}])$-time algorithm in the sampling setting, where the probability transition matrix is unknown but accessible through a generative model which can be queried in $\tilde{O}(1)$-time, and an $\tilde{O}(s + (1-\gamma)^{-2})$-time algorithm in the offline setting where the probability transition matrix is known and $s$-sparse. These results improve upon the prior state-of-the-art which either ran in $\tilde{O}(A_{\text{tot}}[(1 – \gamma)^{-3}\epsilon^{-2} + (1 – \gamma)^{-3}])$ time [Sidford, Wang, Wu, Ye 2018] in the sampling setting, $\tilde{O}(s + A_{\text{tot}} (1-\gamma)^{-3})$ time [Sidford, Wang, Wu, Yang, Ye 2018] in the offline setting, or time at least quadratic in the number of states using interior point methods for linear programming. We achieve our results by building upon prior stochastic variance-reduced value iteration methods [Sidford, Wang, Wu, Yang, Ye 2018]. We provide a variant that carefully truncates the progress of its iterates to improve the variance of new variance-reduced sampling procedures that we introduce to implement the steps. Our method is essentially model-free and can be implemented in $\tilde{O}(A_{\text{tot}})$-space when given generative model access. Consequently, our results take a step in closing the sample-complexity gap between model-free and model-based methods.

arxiv情報

著者 Yujia Jin,Ishani Karmarkar,Aaron Sidford,Jiayi Wang
発行日 2024-05-21 17:28:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, math.OC パーマリンク