要約
オフライン強化学習 (RL) の魅力的な使用例は、既存のデータセットからポリシーの初期化を取得し、その後、限られたインタラクションで高速オンライン微調整を行うことです。
ただし、既存のオフライン RL 手法は、微調整中に動作が低下する傾向があります。
この論文では、保守的なオフライン RL 手法のコンテキストで微調整問題を研究し、高速オンライン微調整機能も可能にするオフライン データから効果的な初期化を学習するアプローチを考案します。
私たちのアプローチである校正済み Q 学習 (Cal-QL) は、オフライン データから学習したポリシーの値を過小評価する保守的な値関数の初期化を学習すると同時に、学習した Q 値が適切なスケールであることを保証することでこれを実現します。
このプロパティをキャリブレーションと呼び、学習されたポリシーの真の値関数の下限と、他の (最適ではない) 参照ポリシー (単に動作ポリシーである場合もあります) の値の上限を提供するものとして正式に定義します。
校正された値関数も学習する保守的なオフライン RL アルゴリズムが効果的なオンライン微調整につながり、オンライン微調整でオフライン初期化の利点を活用できることを示します。
実際には、Cal-QL は、1 行のコード変更内でオフライン RL の保守的 Q 学習 (CQL) の上に実装できます。
経験的には、Cal-QL は、このペーパーで調査した 9/11 の微調整ベンチマーク タスクにおいて、最先端の手法よりも優れたパフォーマンスを発揮します。
コードとビデオは https://nakamotoo.github.io/projects/Cal-QL で入手できます。
要約(オリジナル)
A compelling use case of offline reinforcement learning (RL) is to obtain a policy initialization from existing datasets followed by fast online fine-tuning with limited interaction. However, existing offline RL methods tend to behave poorly during fine-tuning. In this paper, we study the fine-tuning problem in the context of conservative offline RL methods and we devise an approach for learning an effective initialization from offline data that also enables fast online fine-tuning capabilities. Our approach, calibrated Q-learning (Cal-QL), accomplishes this by learning a conservative value function initialization that underestimates the value of the learned policy from offline data, while also ensuring that the learned Q-values are at a reasonable scale. We refer to this property as calibration, and define it formally as providing a lower bound on the true value function of the learned policy and an upper bound on the value of some other (suboptimal) reference policy, which may simply be the behavior policy. We show that a conservative offline RL algorithm that also learns a calibrated value function leads to effective online fine-tuning, enabling us to take the benefits of offline initializations in online fine-tuning. In practice, Cal-QL can be implemented on top of the conservative Q learning (CQL) for offline RL within a one-line code change. Empirically, Cal-QL outperforms state-of-the-art methods on 9/11 fine-tuning benchmark tasks that we study in this paper. Code and video are available at https://nakamotoo.github.io/projects/Cal-QL
arxiv情報
著者 | Mitsuhiko Nakamoto,Yuexiang Zhai,Anikait Singh,Max Sobol Mark,Yi Ma,Chelsea Finn,Aviral Kumar,Sergey Levine |
発行日 | 2023-06-20 06:41:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google