Reflect-RL: Two-Player Online RL Fine-Tuning for LMs

要約

言語モデル (LM) がさまざまな分野でその機能を実証するにつれて、マルチラウンド インタラクションを必要とするタスクへの言語モデルの適用がますます一般的になってきています。
これらのタスクには通常、複雑なダイナミクスが含まれるため、限られたオフライン データセットに対する教師あり微調整 (SFT) では良好なパフォーマンスが得られません。
しかし、インタラクティブな意思決定環境内で LM を直接訓練しようと試みた作品はわずかしかありませんでした。
私たちは、これらの環境でオンライン強化学習 (RL) を使用して LM を微調整するための効果的なアプローチを作成することを目指しています。
我々は、SFT とオンライン RL を使用して LM を微調整するための 2 プレーヤー システムである Reflect-RL を提案します。このシステムでは、凍結されたリフレクション モデル (プレーヤー) がポリシー モデル (プレーヤー) を支援します。
ウォームアップ SFT ステージのデータを生成するには、ネガティブ例生成を使用して、リフレクション モデルの誤り訂正能力を強化します。
さらに、シングルプロンプトアクションの列挙を設計し、ポリシーモデルがより効率的に学習できるようにカリキュラム学習を適用しました。
経験的に、Reflect-RL は SFT およびリフレクションなしのオンライン RL よりも優れていることが確認されています。
テスト結果は、Reflect-RL で微調整された GPT-2 XL 1.56B が、Mistral 7B などのより大きなオープンソース LM よりも優れたパフォーマンスを示すことを示しています。
この作業に関係するベンチマーク、データセット、コードは、https://github.com/zhourunlong/Reflect-RL から公開されています。

要約(オリジナル)

As language models (LMs) demonstrate their capabilities in various fields, their application to tasks requiring multi-round interactions has become increasingly popular. These tasks usually have complex dynamics, so supervised fine-tuning (SFT) on a limited offline dataset does not yield good performance. However, only a few works attempted to directly train the LMs within interactive decision-making environments. We aim to create an effective approach to fine-tune LMs with online reinforcement learning (RL) in these environments. We propose Reflect-RL, a two-player system to fine-tune an LM using SFT and online RL, where a frozen reflection model (player) assists the policy model (player). To generate data for the warm-up SFT stage, we use negative example generation to enhance the error-correction ability of the reflection model. Furthermore, we designed single-prompt action enumeration and applied curriculum learning to allow the policy model to learn more efficiently. Empirically, we verify that Reflect-RL outperforms SFT and online RL without reflection. Testing results indicate GPT-2 XL 1.56B fine-tuned with Reflect-RL outperforms larger open-source LMs, such as Mistral 7B. The benchmarks, dataset, and code involved in this work are publicly available: https://github.com/zhourunlong/Reflect-RL.

arxiv情報

著者 Runlong Zhou,Simon S. Du,Beibin Li
発行日 2024-06-06 17:04:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク