Bridging Offline Reinforcement Learning and Imitation Learning: A Tale of Pessimism

要約

オフライン(またはバッチ)強化学習(RL)アルゴリズムは、能動的なデータ収集なしに、固定されたデータセットから最適な方針を学習しようとするものである。オフラインデータセットの構成に基づいて、2つの主要なカテゴリの手法が使用される:エキスパートデータセットに適した模倣学習と、多くの場合、均一なカバレッジデータセットを必要とするバニラオフラインRLである。現実的な観点からは、データセットはこの両極端から逸脱していることが多く、正確なデータ構成は通常事前には不明である。このギャップを埋めるために、両極端のデータ構成の間を滑らかに補間する新しいオフラインRLフレームワークを提示し、模倣学習とバニラオフラインRLを統合する。この新しい枠組みは、専門家の方針のみに対する行動方針からの乖離を測定する弱いバージョンの同調可能性係数を中心としている。 この新しいフレームワークの下で、我々はアルゴリズム設計に関する疑問をさらに調査する:ミニマックスの最適率を達成し、未知のデータ構成にも適応するアルゴリズムを開発できるのか?この問いに対処するため、オフラインRLにおける不確実性に直面した場合の悲観論に基づいて開発された下限信頼境界(LCB)アルゴリズムを考察する。我々は、LCBの有限標本特性と、マルチアームドバンディット、コンテクスチュアルバンディット、マルコフ決定過程(MDP)における情報理論的限界について研究する。我々の分析により、最適化率に関する驚くべき事実が明らかになった。特に、3つの設定すべてにおいて、LCBは、オフラインRLにおける通常の最適化率$1/sqrt{N}$($N$はバッチデータセットのサンプル数)に比べて、ほぼ専門的なデータセットに対して、より速い最適化率$1/N$を達成する。少なくとも2つのコンテキストを持つコンテキストバンディットの場合、LCBはデータ構成範囲の全てにおいて適応的に最適であり、模倣学習からオフラインRLへのスムーズな移行を達成することを証明する。さらに、LCBがMDPにおいてほぼ適応的に最適であることを示す。

要約(オリジナル)

Offline (or batch) reinforcement learning (RL) algorithms seek to learn an optimal policy from a fixed dataset without active data collection. Based on the composition of the offline dataset, two main categories of methods are used: imitation learning which is suitable for expert datasets and vanilla offline RL which often requires uniform coverage datasets. From a practical standpoint, datasets often deviate from these two extremes and the exact data composition is usually unknown a priori. To bridge this gap, we present a new offline RL framework that smoothly interpolates between the two extremes of data composition, hence unifying imitation learning and vanilla offline RL. The new framework is centered around a weak version of the concentrability coefficient that measures the deviation from the behavior policy to the expert policy alone. Under this new framework, we further investigate the question on algorithm design: can one develop an algorithm that achieves a minimax optimal rate and also adapts to unknown data composition? To address this question, we consider a lower confidence bound (LCB) algorithm developed based on pessimism in the face of uncertainty in offline RL. We study finite-sample properties of LCB as well as information-theoretic limits in multi-armed bandits, contextual bandits, and Markov decision processes (MDPs). Our analysis reveals surprising facts about optimality rates. In particular, in all three settings, LCB achieves a faster rate of $1/N$ for nearly-expert datasets compared to the usual rate of $1/\sqrt{N}$ in offline RL, where $N$ is the number of samples in the batch dataset. In the case of contextual bandits with at least two contexts, we prove that LCB is adaptively optimal for the entire data composition range, achieving a smooth transition from imitation learning to offline RL. We further show that LCB is almost adaptively optimal in MDPs.

arxiv情報

著者 Paria Rashidinejad,Banghua Zhu,Cong Ma,Jiantao Jiao,Stuart Russell
発行日 2023-07-03 04:47:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, math.OC, math.ST, stat.ML, stat.TH パーマリンク