要約
このホワイト ペーパーでは、事前に収集されたデータを使用して学習するオフライン強化学習 (RL) について説明します。
効果的なオフライン RL は、分布のシフトと限られたデータ範囲に対応できます。
ただし、以前のアルゴリズムまたは分析は、最適ではないサンプルの複雑さに悩まされるか、サンプルの最適化に到達するための高いバーンイン コストが発生するため、サンプルが不足しているアプリケーションで効率的なオフライン RL の障害となります。
モデルベース (または「プラグイン」) のアプローチが、表形式のマルコフ決定プロセス (MDP) のバーンイン コストなしで、ミニマックス最適なサンプルの複雑さを達成することを示します。
具体的には、$S$ 状態とホライズン $H$ (それぞれ有効ホライズン $\frac{1}{1-\gamma}$) を持つ有限ホライズン (resp. $\gamma$-discounted infinite-horizon) MDP を考えます。
、データの分布シフトが、単一ポリシーのクリップされた集中度係数 $C^{\star}_{\text{clipped}}$ によって反映されているとします。
モデルベースのオフライン強化学習が \[ \begin{cases} \frac{H^{4}SC_{\text{cliped}}^{\star}}{
\varepsilon^{2}} & (\text{finite-horizon MDPs}) \frac{SC_{\text{cliped}}^{\star}}{(1-\gamma)^{3}\varepsilon^{
2}} & (\text{infinite-horizon MDPs}) \end{cases} \] 対数係数まで、これは $\varepsilon$ 範囲全体に最適なミニマックスです。
提案されたアルゴリズムは、バーンスタイン スタイルのペナルティを伴う値反復の「悲観的な」変形であり、洗練された分散削減を必要としません。
私たちの分析フレームワークは、MDPに合わせた慎重な自己境界技術と組み合わせた、繊細なリーブワンアウトデカップリング引数に基づいて確立されています。
要約(オリジナル)
This paper is concerned with offline reinforcement learning (RL), which learns using pre-collected data without further exploration. Effective offline RL would be able to accommodate distribution shift and limited data coverage. However, prior algorithms or analyses either suffer from suboptimal sample complexities or incur high burn-in cost to reach sample optimality, thus posing an impediment to efficient offline RL in sample-starved applications. We demonstrate that the model-based (or ‘plug-in’) approach achieves minimax-optimal sample complexity without burn-in cost for tabular Markov decision processes (MDPs). Concretely, consider a finite-horizon (resp. $\gamma$-discounted infinite-horizon) MDP with $S$ states and horizon $H$ (resp. effective horizon $\frac{1}{1-\gamma}$), and suppose the distribution shift of data is reflected by some single-policy clipped concentrability coefficient $C^{\star}_{\text{clipped}}$. We prove that model-based offline RL yields $\varepsilon$-accuracy with a sample complexity of \[ \begin{cases} \frac{H^{4}SC_{\text{clipped}}^{\star}}{\varepsilon^{2}} & (\text{finite-horizon MDPs}) \frac{SC_{\text{clipped}}^{\star}}{(1-\gamma)^{3}\varepsilon^{2}} & (\text{infinite-horizon MDPs}) \end{cases} \] up to log factor, which is minimax optimal for the entire $\varepsilon$-range. The proposed algorithms are “pessimistic” variants of value iteration with Bernstein-style penalties, and do not require sophisticated variance reduction. Our analysis framework is established upon delicate leave-one-out decoupling arguments in conjunction with careful self-bounding techniques tailored to MDPs.
arxiv情報
著者 | Gen Li,Laixi Shi,Yuxin Chen,Yuejie Chi,Yuting Wei |
発行日 | 2023-02-16 14:04:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google