Sharper Model-free Reinforcement Learning for Average-reward Markov Decision Processes

要約

私たちは、無限水平平均報酬マルコフ決定プロセス (MDP) 向けに、効率的であることが証明されているモデルフリー強化学習 (RL) アルゴリズムをいくつか開発します。
オンラインでの設定とシミュレーターにアクセスしての設定の両方を考慮します。
オンライン設定では、参照優位分解に基づいたモデルフリー RL アルゴリズムを提案します。
私たちのアルゴリズムは、$T$ ステップ後に $\widetilde{O}(S^5A^2\mathrm{sp}(h^*)\sqrt{T})$ リ後悔を達成します。ここで、$S\times A$ のサイズは
状態アクション空間、および $\mathrm{sp}(h^*)$ 最適バイアス関数のスパン。
私たちの結果は、弱く通信する MDP に対して $T$ の最適な依存関係を初めて達成しました。
シミュレータ設定では、 $\widetilde{O} \left(\frac{SA\mathrm{sp}^2(h^*)} を使用して $\epsilon$ 最適なポリシーを見つけるモデルフリー RL アルゴリズムを提案します。
{\epsilon^2}+\frac{S^2A\mathrm{sp}(h^*)}{\epsilon} \right)$ サンプル、ミニマックスの下限は $\Omega\left(\frac{SA
\mathrm{sp}(h^*)}{\epsilon^2}\right)$。
私たちの結果は、平均報酬設定における独自の 2 つの新しい手法に基づいています。1) 価値の差の推定によるより良い割引近似。
2) 空間複雑度 $O(SA)$ の最適バイアス関数の信頼領域の効率的な構築。

要約(オリジナル)

We develop several provably efficient model-free reinforcement learning (RL) algorithms for infinite-horizon average-reward Markov Decision Processes (MDPs). We consider both online setting and the setting with access to a simulator. In the online setting, we propose model-free RL algorithms based on reference-advantage decomposition. Our algorithm achieves $\widetilde{O}(S^5A^2\mathrm{sp}(h^*)\sqrt{T})$ regret after $T$ steps, where $S\times A$ is the size of state-action space, and $\mathrm{sp}(h^*)$ the span of the optimal bias function. Our results are the first to achieve optimal dependence in $T$ for weakly communicating MDPs. In the simulator setting, we propose a model-free RL algorithm that finds an $\epsilon$-optimal policy using $\widetilde{O} \left(\frac{SA\mathrm{sp}^2(h^*)}{\epsilon^2}+\frac{S^2A\mathrm{sp}(h^*)}{\epsilon} \right)$ samples, whereas the minimax lower bound is $\Omega\left(\frac{SA\mathrm{sp}(h^*)}{\epsilon^2}\right)$. Our results are based on two new techniques that are unique in the average-reward setting: 1) better discounted approximation by value-difference estimation; 2) efficient construction of confidence region for the optimal bias function with space complexity $O(SA)$.

arxiv情報

著者 Zihan Zhang,Qiaomin Xie
発行日 2023-06-28 17:43:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク