Cal-QL: Calibrated Offline RL Pre-Training for Efficient Online Fine-Tuning

要約

オフライン強化学習 (RL) の説得力のあるユース ケースは、既存のデータセットからポリシーの初期化を取得することです。これにより、限られた量のアクティブなオンライン インタラクションで効率的な微調整が可能になります。
ただし、いくつかの既存のオフライン RL メソッドは、オンライン微調整のパフォーマンスが低い傾向があります。
一方、オンライン RL メソッドは、オンラインでの対話を通じて効果的に学習できますが、オフライン データを組み込むのに苦労するため、探索が困難な場合や事前トレーニングが必要な設定では非常に遅くなる可能性があります。
このホワイト ペーパーでは、高速なオンライン微調整機能も可能にするオフライン データから効果的な初期化を学習するためのアプローチを考案します。
私たちのアプローチである調整済み Q 学習 (Cal-QL) は、オフライン データから学習したポリシーの値を過小評価する保守的な価値関数の初期化を学習することでこれを達成します。
適度なスケール。
このプロパティをキャリブレーションと呼び、学習されたポリシーの真の値関数の下限と、単に動作ポリシーである可能性のある他の (次善の) 参照ポリシーの値の上限を提供するものとして正式に定義します。
このような較正された値関数を学習するオフライン強化学習アルゴリズムが効果的なオンライン微調整につながり、オンライン微調整でオフライン初期化の利点を活用できることを示します。
実際には、Cal-QL は、オフライン RL の既存の保守的な方法の上に、1 行のコード変更で実装できます。
経験的に、Cal-QL は、このホワイト ペーパーで調査する 10/11 微調整ベンチマーク タスクで最先端の方法よりも優れています。

要約(オリジナル)

A compelling use case of offline reinforcement learning (RL) is to obtain a policy initialization from existing datasets, which allows efficient fine-tuning with limited amounts of active online interaction. However, several existing offline RL methods tend to exhibit poor online fine-tuning performance. On the other hand, online RL methods can learn effectively through online interaction, but struggle to incorporate offline data, which can make them very slow in settings where exploration is challenging or pre-training is necessary. In this paper, we devise an approach for learning an effective initialization from offline data that also enables fast online fine-tuning capabilities. Our approach, calibrated Q-learning (Cal-QL) accomplishes this by learning a conservative value function initialization that underestimates the value of the learned policy from offline data, while also being calibrated, in the sense that the learned Q-values are at a reasonable scale. We refer to this property as calibration, and define it formally as providing a lower bound on the true value function of the learned policy and an upper bound on the value of some other (suboptimal) reference policy, which may simply be the behavior policy. We show that offline RL algorithms that learn such calibrated value functions lead to effective online fine-tuning, enabling us to take the benefits of offline initializations in online fine-tuning. In practice, Cal-QL can be implemented on top of existing conservative methods for offline RL within a one-line code change. Empirically, Cal-QL outperforms state-of-the-art methods on 10/11 fine-tuning benchmark tasks that we study in this paper.

arxiv情報

著者 Mitsuhiko Nakamoto,Yuexiang Zhai,Anikait Singh,Max Sobol Mark,Yi Ma,Chelsea Finn,Aviral Kumar,Sergey Levine
発行日 2023-03-09 18:31:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク