要約
機械学習における現代のパラダイムには、さまざまなデータに対する事前トレーニングと、それに続くタスク固有の微調整が含まれます。
強化学習 (RL) では、これは、さまざまな履歴データセットに対するオフライン RL を介した学習と、その後のインタラクション データを使用したオンライン RL の迅速な微調整に変換されます。
ほとんどの RL 微調整方法では、安定性とパフォーマンスを確保するためにオフライン データでの継続的なトレーニングが必要です。
ただし、これは望ましくありません。なぜなら、大規模なデータセットの場合、多様なオフライン データでのトレーニングは時間がかかり、コストがかかり、原則として、オフライン データの制約や悲観のために可能なパフォーマンスの向上も制限されるからです。
この論文では、オフライン RL の初期化を微調整するために適切に設計されたオンライン RL アプローチを使用する限り、オフライン データを保持する必要がないことを示します。
このアプローチを構築するには、オンライン微調整におけるオフライン データの保持の役割を分析することから始めます。
オフライン データでの継続的なトレーニングは、オフライン データとオンライン ロールアウトの間の分布の不一致によって引き起こされる、微調整の開始時の値関数の突然の発散を防ぐのに主に役立つことがわかりました。
この乖離により、通常、学習が忘れられ、オフラインの事前トレーニングの利点が忘れられてしまいます。
私たちのアプローチであるウォームスタート RL (WSRL) は、非常に単純なアイデアを使用して、事前トレーニングされた初期化の壊滅的な忘れを軽減します。
WSRL は、高速オンライン RL を実行するために、事前トレーニングされたポリシーからの非常に少数のロールアウトをオンライン RL 実行にシードするウォームアップ フェーズを採用しています。
ウォームアップ中に収集されたデータは、オフライン Q 関数をオンライン分布に合わせて「再調整」するのに役立ち、オンライン RL 微調整を不安定にすることなくオフライン データを完全に破棄できるようになります。
WSRL はオフライン データを保持せずに微調整でき、オフライン データを保持するかどうかに関係なく、既存のアルゴリズムよりも高速に学習して高いパフォーマンスを達成できることを示します。
要約(オリジナル)
The modern paradigm in machine learning involves pre-training on diverse data, followed by task-specific fine-tuning. In reinforcement learning (RL), this translates to learning via offline RL on a diverse historical dataset, followed by rapid online RL fine-tuning using interaction data. Most RL fine-tuning methods require continued training on offline data for stability and performance. However, this is undesirable because training on diverse offline data is slow and expensive for large datasets, and in principle, also limit the performance improvement possible because of constraints or pessimism on offline data. In this paper, we show that retaining offline data is unnecessary as long as we use a properly-designed online RL approach for fine-tuning offline RL initializations. To build this approach, we start by analyzing the role of retaining offline data in online fine-tuning. We find that continued training on offline data is mostly useful for preventing a sudden divergence in the value function at the onset of fine-tuning, caused by a distribution mismatch between the offline data and online rollouts. This divergence typically results in unlearning and forgetting the benefits of offline pre-training. Our approach, Warm-start RL (WSRL), mitigates the catastrophic forgetting of pre-trained initializations using a very simple idea. WSRL employs a warmup phase that seeds the online RL run with a very small number of rollouts from the pre-trained policy to do fast online RL. The data collected during warmup helps “recalibrate” the offline Q-function to the online distribution, allowing us to completely discard offline data without destabilizing the online RL fine-tuning. We show that WSRL is able to fine-tune without retaining any offline data, and is able to learn faster and attains higher performance than existing algorithms irrespective of whether they retain offline data or not.
arxiv情報
著者 | Zhiyuan Zhou,Andy Peng,Qiyang Li,Sergey Levine,Aviral Kumar |
発行日 | 2024-12-10 18:57:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google