要約
この論文は、事前に収集されたデータをさらに探索せずに使用して学習するオフライン強化学習 (RL) に関するものです。
効果的なオフライン RL は、配信のシフトや限られたデータ範囲に対応できます。
しかし、従来のアルゴリズムや分析では、サンプルの複雑さが最適ではないか、サンプルの最適性を達成するために高いバーンイン コストがかかるため、サンプルが不足しているアプリケーションでの効率的なオフライン RL の障害となっていました。
我々は、モデルベース (または「プラグイン」) アプローチが、表形式マルコフ決定プロセス (MDP) のバーンイン コストなしでミニマックス最適サンプル複雑さを達成することを実証します。
具体的には、$S$ 状態とホライズン $H$ (つまり有効ホライズン $\frac{1}{1-\gamma}$) を持つ有限ホライズン ($\gamma$ 割引された無限ホライズン) MDP を考えます。
そして、データの分布シフトが単一ポリシーのクリップされた集中性係数 $C^{\star}_{\text{clipped}}$ によって反映されていると仮定します。
モデルベースのオフライン RL が、サンプル複雑度 \[ \begin{cases} \frac{H^{4}SC_{\text{clipped}}^{\star}}{] で $\varepsilon$ の精度をもたらすことを証明します。
\varepsilon^{2}} & (\text{有限地平線 MDP}) \frac{SC_{\text{切り取られた}}^{\star}}{(1-\gamma)^{3}\varepsilon^{
2}} & (\text{infinite-horizon MDPs}) \end{cases} \] 対数係数まで。これは $\varepsilon$ 範囲全体にとって最適な最小値です。
提案されたアルゴリズムは、バーンスタイン スタイルのペナルティを備えた値反復の「悲観的」変形であり、高度な分散削減を必要としません。
私たちの分析フレームワークは、MDP に合わせた慎重な自己境界テクニックと組み合わせた、繊細な Leave-One-Out デカップリング議論に基づいて確立されています。
要約(オリジナル)
This paper is concerned with offline reinforcement learning (RL), which learns using pre-collected data without further exploration. Effective offline RL would be able to accommodate distribution shift and limited data coverage. However, prior algorithms or analyses either suffer from suboptimal sample complexities or incur high burn-in cost to reach sample optimality, thus posing an impediment to efficient offline RL in sample-starved applications. We demonstrate that the model-based (or ‘plug-in’) approach achieves minimax-optimal sample complexity without burn-in cost for tabular Markov decision processes (MDPs). Concretely, consider a finite-horizon (resp. $\gamma$-discounted infinite-horizon) MDP with $S$ states and horizon $H$ (resp. effective horizon $\frac{1}{1-\gamma}$), and suppose the distribution shift of data is reflected by some single-policy clipped concentrability coefficient $C^{\star}_{\text{clipped}}$. We prove that model-based offline RL yields $\varepsilon$-accuracy with a sample complexity of \[ \begin{cases} \frac{H^{4}SC_{\text{clipped}}^{\star}}{\varepsilon^{2}} & (\text{finite-horizon MDPs}) \frac{SC_{\text{clipped}}^{\star}}{(1-\gamma)^{3}\varepsilon^{2}} & (\text{infinite-horizon MDPs}) \end{cases} \] up to log factor, which is minimax optimal for the entire $\varepsilon$-range. The proposed algorithms are ‘pessimistic’ variants of value iteration with Bernstein-style penalties, and do not require sophisticated variance reduction. Our analysis framework is established upon delicate leave-one-out decoupling arguments in conjunction with careful self-bounding techniques tailored to MDPs.
arxiv情報
著者 | Gen Li,Laixi Shi,Yuxin Chen,Yuejie Chi,Yuting Wei |
発行日 | 2024-03-08 18:40:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google