Fast Rates for the Regret of Offline Reinforcement Learning

要約

私たちは、無限地平線割引マルコフ決定プロセス (MDP) における固定動作ポリシーによって生成されたオフライン データからの強化学習の後悔を研究します。
近似 $Q$ 反復 (FQI) などの一般的なアプローチの既存の分析では、後悔に対する $O(1/\sqrt{n})$ の収束が示唆されていますが、経験的な動作は \emph{はるかに} 速い収束を示します。
この論文では、リグレス収束の高速化を実現することで、この現象を正確に特徴付ける、より詳細なリグレス分析を紹介します。
まず、最適品質関数 $Q^*$ の推定値が与えられた場合、その推定値が定義するポリシーのリグアロングは、$Q^*$ 推定値の点ごとの収束率の累乗によって与えられる速度で収束し、その結果、速度が向上することを示します。
上。
べき乗のレベルは、推定問題ではなく \emph{意思決定} 問題のノイズのレベルに依存します。
例として、線形および表形式の MDP についてそのようなノイズ レベルを確立します。
第 2 に、正しい点ごとの収束保証を確立するために、FQI とベルマン残差最小化の新しい分析を提供します。
特定のケースとして、私たちの結果は、線形ケースでは $O(1/n)$ の後悔率、表形式のケースでは $\exp(-\Omega(n))$ の後悔率を意味します。
$Q^*$ を点単位で推定するのではなく、$L_p$ 収束率に基づくリグレス保証に結果を拡張することで、結果を一般関数近似に拡張します。ここで、ノンパラメトリック $Q^*$ 推定に対する $L_2$ 保証は、
穏やかな条件下で保証されます。

要約(オリジナル)

We study the regret of reinforcement learning from offline data generated by a fixed behavior policy in an infinite-horizon discounted Markov decision process (MDP). While existing analyses of common approaches, such as fitted $Q$-iteration (FQI), suggest a $O(1/\sqrt{n})$ convergence for regret, empirical behavior exhibits \emph{much} faster convergence. In this paper, we present a finer regret analysis that exactly characterizes this phenomenon by providing fast rates for the regret convergence. First, we show that given any estimate for the optimal quality function $Q^*$, the regret of the policy it defines converges at a rate given by the exponentiation of the $Q^*$-estimate’s pointwise convergence rate, thus speeding it up. The level of exponentiation depends on the level of noise in the \emph{decision-making} problem, rather than the estimation problem. We establish such noise levels for linear and tabular MDPs as examples. Second, we provide new analyses of FQI and Bellman residual minimization to establish the correct pointwise convergence guarantees. As specific cases, our results imply $O(1/n)$ regret rates in linear cases and $\exp(-\Omega(n))$ regret rates in tabular cases. We extend our findings to general function approximation by extending our results to regret guarantees based on $L_p$-convergence rates for estimating $Q^*$ rather than pointwise rates, where $L_2$ guarantees for nonparametric $Q^*$-estimation can be ensured under mild conditions.

arxiv情報

著者 Yichun Hu,Nathan Kallus,Masatoshi Uehara
発行日 2023-07-12 09:33:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.OC, stat.ML パーマリンク