On Sample-Efficient Offline Reinforcement Learning: Data Diversity, Posterior Sampling, and Beyond

要約

私たちは、オフライン強化学習 (RL) として一般に知られている、逐次的な意思決定のための過去のデータセットからのサンプル効率的な学習を促進するものを理解しようとしています。
さらに、(値) 関数近似を活用しながらサンプル効率を高めるアルゴリズムにも興味があります。
このペーパーでは、(i) オフライン RL におけるカバレッジ測定の以前の概念を包含するデータ多様性の概念を提案し、(ii) この概念を使用して、
バージョン空間 (VS)、正則化最適化 (RO)、事後サンプリング (PS)。
標準的な仮定の下で、VS ベース、RO ベース、および PS ベースのアルゴリズムが \emph{comparable} サンプル効率を達成し、有限および線形モデル クラスの最先端の準最適限界を回復することを確立します。
標準的な仮定を使って。
以前の研究では、VS ベースのアルゴリズムと比較して RO ベースのアルゴリズムのサンプルの複雑さが不利であることが示唆されていたのに対し、事後サンプリングは探索的な性質のためオフライン RL ではほとんど考慮されなかったことを考えると、この結果は驚くべきものです。
特に、私たちが提案したオフライン RL 用のモデルフリー PS ベースのアルゴリズムは {novel} であり、本質的に {frequentist} (つまり、最悪の場合) の次善限界を備えています。

要約(オリジナル)

We seek to understand what facilitates sample-efficient learning from historical datasets for sequential decision-making, a problem that is popularly known as offline reinforcement learning (RL). Further, we are interested in algorithms that enjoy sample efficiency while leveraging (value) function approximation. In this paper, we address these fundamental questions by (i) proposing a notion of data diversity that subsumes the previous notions of coverage measures in offline RL and (ii) using this notion to {unify} three distinct classes of offline RL algorithms based on version spaces (VS), regularized optimization (RO), and posterior sampling (PS). We establish that VS-based, RO-based, and PS-based algorithms, under standard assumptions, achieve \emph{comparable} sample efficiency, which recovers the state-of-the-art sub-optimality bounds for finite and linear model classes with the standard assumptions. This result is surprising, given that the prior work suggested an unfavorable sample complexity of the RO-based algorithm compared to the VS-based algorithm, whereas posterior sampling is rarely considered in offline RL due to its explorative nature. Notably, our proposed model-free PS-based algorithm for offline RL is {novel}, with sub-optimality bounds that are {frequentist} (i.e., worst-case) in nature.

arxiv情報

著者 Thanh Nguyen-Tang,Raman Arora
発行日 2024-02-06 18:08:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク