要約
強化学習 (RL) コミュニティでは、オンライン RL とオフライン RL という 2 つの中心的なパラダイムが出現しました。
オンライン RL 設定では、エージェントは環境に関する事前知識を持たないため、$\epsilon$-optimal ポリシーを見つけるために環境と対話する必要があります。
オフライン RL 設定では、学習者は固定データセットにアクセスして学習することができますが、それ以外の方法で環境と対話することはできず、このオフライン データから可能な限り最善のポリシーを取得する必要があります。
実践的なシナリオでは中間設定が動機付けられることがよくあります。オフライン データのセットがあり、さらに環境と対話する可能性がある場合、$\epsilon$-optimal ポリシーを学習するために必要なオンライン対話の数を最小限に抑えるために、オフライン データをどのように最適に使用できるでしょうか?
この作業では、線形構造を持つ MDP について、\textsf{FineTuneRL} 設定と呼ぶこの設定を検討します。
オフライン データセットへのアクセスを前提として、この設定で必要なオンライン サンプルの必要数を特徴付け、$H$ 係数まで最適であることが証明されているアルゴリズム \textsc{FTPedel} を開発します。
オフライン データとオンライン インタラクションを組み合わせることで、純粋にオフラインの RL または純粋にオンラインの RL よりも証明可能な改善が得られることを、明示的な例を通じて示します。
最後に、私たちの結果は、オンライン RL で考慮される典型的な設定である \emph{verifiable} 学習と、オフライン RL でよく考慮される設定である \emph{unverifiable} 学習の区別を示し、これらのレジーム間に形式的な分離があることを示しています。
要約(オリジナル)
Two central paradigms have emerged in the reinforcement learning (RL) community: online RL and offline RL. In the online RL setting, the agent has no prior knowledge of the environment, and must interact with it in order to find an $\epsilon$-optimal policy. In the offline RL setting, the learner instead has access to a fixed dataset to learn from, but is unable to otherwise interact with the environment, and must obtain the best policy it can from this offline data. Practical scenarios often motivate an intermediate setting: if we have some set of offline data and, in addition, may also interact with the environment, how can we best use the offline data to minimize the number of online interactions necessary to learn an $\epsilon$-optimal policy? In this work, we consider this setting, which we call the \textsf{FineTuneRL} setting, for MDPs with linear structure. We characterize the necessary number of online samples needed in this setting given access to some offline dataset, and develop an algorithm, \textsc{FTPedel}, which is provably optimal, up to $H$ factors. We show through an explicit example that combining offline data with online interactions can lead to a provable improvement over either purely offline or purely online RL. Finally, our results illustrate the distinction between \emph{verifiable} learning, the typical setting considered in online RL, and \emph{unverifiable} learning, the setting often considered in offline RL, and show that there is a formal separation between these regimes.
arxiv情報
著者 | Andrew Wagenmaker,Aldo Pacchiano |
発行日 | 2023-07-20 13:11:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google