要約
強化学習は、尤度最大化を使用して大規模なコーパス内のテキストの次のトークンを予測するモデルを最初に事前トレーニングした後、言語モデルを人間の好みの信号と一致させるために使用されます。
モデルは、特定のドメインにデプロイされる前に、タスク固有のデータに基づいてさらに微調整されることがよくあります。
最後のステップでは人間の好みが利用できないことが多いため、典型的なデフォルトの方法である尤度の最大化を使用して実行されます。
ただし、強化学習には、人間由来の報酬関数への調整が容易になる以外にも利点があります。
まず、尤度の最大化は、理想的な条件下で何をすべきかについてモデルをトレーニングする模倣学習の一種であるのに対し、強化学習は、最適に到達した状態に対するアクションの実証に限定されず、さまざまな条件下でモデルをトレーニングします。
政策空間を探求するシナリオ。
さらに、やってはいけないことのモデルもトレーニングし、競争的だが不適切な行動を抑制します。
この研究では、強化学習を使用したラストマイル微調整のフレームワークを開発し、パフォーマンスが向上するかどうかをテストします。
実験は抽象的な要約を中心としていますが、フレームワークは一般的で広く適用可能です。
生の予測を比較する場合、この手順を使用すると、尤度の最大化よりも大幅に優れた結果が得られました。
テストされた特定のデータについては、最尤出力の後処理を採用することでギャップを埋めることができます。
それにもかかわらず、このフレームワークは、後処理が簡単ではない、または効果的ではない可能性がある状況でモデルを最適化するための新しい手段を提供し、幻覚などのペナルティやトレーニング対象となる、より複雑なクラスの望ましくない出力を含めるように拡張できます。
要約(オリジナル)
Reinforcement learning is used to align language models with human preference signals after first pre-training the model to predict the next token of text within a large corpus using likelihood maximization. Before being deployed in a specific domain, models are often further fine-tuned on task specific data. Since human preferences are often unavailable for the last step, it is performed using likelihood maximization as that is the typical default method. However, reinforcement learning has other advantages besides facilitating alignment to a human derived reward function. For one, whereas likelihood maximization is a form of imitation learning in which the model is trained on what to do under ideal conditions, reinforcement learning is not limited to demonstrating actions just for optimally reached states and trains a model what to do under a range of scenarios as it explores the policy space. In addition, it also trains a model what not to do, suppressing competitive but poor actions. This work develops a framework for last-mile fine-tuning using reinforcement learning and tests whether it garners performance gains. The experiments center on abstractive summarization, but the framework is general and broadly applicable. Use of the procedure produced significantly better results than likelihood maximization when comparing raw predictions. For the specific data tested, the gap could be bridged by employing post-processing of the maximum likelihood outputs. Nonetheless, the framework offers a new avenue for model optimization in situations where post-processing may be less straightforward or effective, and it can be extended to include more complex classes of undesirable outputs to penalize and train against, such as hallucinations.
arxiv情報
著者 | Alec Solway |
発行日 | 2024-08-29 17:49:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google