要約
オフライン強化学習は、積極的な探索を行わずに、事前に収集されたデータセットから最適なポリシーを見つけることを目的としています。
この問題は、データ量の制限や分布の変化などの大きな課題に直面しています。
既存の研究では、不確実性に直面した場合に悲観主義の原則が採用されており、訪問の少ない状態と行動のペアに対する報酬にペナルティが課されます。
この論文では、不確実性セットを使用して遷移カーネルの不確実性を直接モデル化し、不確実性セットに対する最悪の場合のパフォーマンスを最適化する分布的にロバストな最適化のアプローチを採用します。
まず、Hoeffding スタイルの不確実性セットを設計します。これにより、真の遷移カーネルが高い確率で不確実性セット内に存在することが保証されます。
$\mathcal{O}\left((1-\gamma)^{-4}\epsilon^{-2}SC^{\pi のサンプル複雑さで $\epsilon$ の精度を達成できることを理論的に証明します。
^*} \right)$、$\gamma$ は割引係数、$C^{\pi^*}$ は任意の比較ポリシー $\pi^*$ の単一ポリシーの集中性、$S$ は
州の数。
さらに、バーンスタイン スタイルの不確実性セットを設計しますが、真の遷移カーネルが不確実性セット内に存在することを必ずしも保証するものではありません。
$\mathcal{O}\left((1-\gamma)^{-3}\epsilon^{-2}\left(SC^{\pi^*}+ という改良されたほぼ最適なサンプル複雑度を示します。
(\mu_{\min})^{-1}\right) \right)$、ここで $\mu_{\min}$ は動作分布の最小非ゼロエントリを示します。
さらに、私たちのアルゴリズムの計算複雑さは、文献にある LCB ベースの手法の 1 つと同じです。
私たちの結果は、分布的にロバストな最適化手法がオフライン強化学習も効率的に解決できることを示しています。
要約(オリジナル)
Offline reinforcement learning aims to find the optimal policy from a pre-collected dataset without active exploration. This problem is faced with major challenges, such as a limited amount of data and distribution shift. Existing studies employ the principle of pessimism in face of uncertainty, and penalize rewards for less visited state-action pairs. In this paper, we directly model the uncertainty in the transition kernel using an uncertainty set, and then employ the approach of distributionally robust optimization that optimizes the worst-case performance over the uncertainty set. We first design a Hoeffding-style uncertainty set, which guarantees that the true transition kernel lies in the uncertainty set with high probability. We theoretically prove that it achieves an $\epsilon$-accuracy with a sample complexity of $\mathcal{O}\left((1-\gamma)^{-4}\epsilon^{-2}SC^{\pi^*} \right)$, where $\gamma$ is the discount factor, $C^{\pi^*}$ is the single-policy concentrability for any comparator policy $\pi^*$, and $S$ is the number of states. We further design a Bernstein-style uncertainty set, which does not necessarily guarantee the true transition kernel lies in the uncertainty set. We show an improved and near-optimal sample complexity of $\mathcal{O}\left((1-\gamma)^{-3}\epsilon^{-2}\left(SC^{\pi^*}+(\mu_{\min})^{-1}\right) \right)$, where $\mu_{\min}$ denotes the minimal non-zero entry of the behavior distribution. In addition, the computational complexity of our algorithms is the same as one of the LCB-based methods in the literature. Our results demonstrate that distributionally robust optimization method can also efficiently solve offline reinforcement learning.
arxiv情報
著者 | Yue Wang,Yuting Hu,Jinjun Xiong,Shaofeng Zou |
発行日 | 2023-05-22 17:50:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google