要約
大規模な言語モデルは優れた機能を示しますが、安全性、人間の価値観との整合性、トレーニング中の安定性の点で課題が生じることがよくあります。
ここでは、これらのモデルを調整するために使用される 2 つの一般的な手法、教師あり微調整 (SFT) とヒューマン フィードバックからの強化学習 (RLHF) に焦点を当てます。
SFT はシンプルかつ堅牢で、多くのオープンソース モデルを強化します。一方、RLHF は、ChatGPT などの最上位モデルで使用されるより洗練された手法ですが、不安定性と報酬ハッキングの影響を受けやすいという欠点もあります。
私たちは、両方の方法の長所を活用することを目的とした、ヒューマン フィードバックからの教師あり反復学習 (SuperHF) という新しいアプローチを提案します。
私たちの仮説は 2 つあります。RLHF で使用される報酬モデルは効率的なデータ使用とモデルの一般化にとって重要であるということ、もう 1 つは RLHF での近接ポリシー最適化 (PPO) の使用は必要ではなく、不安定性の問題に寄与する可能性があるということです。
SuperHF は、PPO を単純な教師付き損失と事前のカルバック・ライブラー (KL) ダイバージェンスで置き換えます。
モデル出力のバッチを繰り返しサンプリングし、オンライン学習体制で報酬モデルを通じてフィルター処理することにより、独自のトレーニング データを作成します。
次に、報酬最適化の問題を 3 つの要素に分解します。トレーニング報酬自体の堅牢な最適化、新しい METEOR 類似性メトリクスによって測定される報酬ハッキング (モデルのパフォーマンスを低下させる報酬モデルの悪用) の防止、および下流の評価で良好なパフォーマンスの維持です。
私たちの実験結果は、SuperHF がトレーニング目標において PPO ベースの RLHF を上回っており、高い報酬と低い報酬のハッキングを簡単かつ有利にトレードオフし、下流のキャリブレーションを改善し、非常にシンプルでありながら GPT-4 ベースの定性評価スキームでも同じことを実行することを示しています。
競争力のある言語モデル調整技術としての SuperHF の可能性を強調しています。
要約(オリジナル)
While large language models demonstrate remarkable capabilities, they often present challenges in terms of safety, alignment with human values, and stability during training. Here, we focus on two prevalent methods used to align these models, Supervised Fine-Tuning (SFT) and Reinforcement Learning from Human Feedback (RLHF). SFT is simple and robust, powering a host of open-source models, while RLHF is a more sophisticated method used in top-tier models like ChatGPT but also suffers from instability and susceptibility to reward hacking. We propose a novel approach, Supervised Iterative Learning from Human Feedback (SuperHF), which seeks to leverage the strengths of both methods. Our hypothesis is two-fold: that the reward model used in RLHF is critical for efficient data use and model generalization and that the use of Proximal Policy Optimization (PPO) in RLHF may not be necessary and could contribute to instability issues. SuperHF replaces PPO with a simple supervised loss and a Kullback-Leibler (KL) divergence prior. It creates its own training data by repeatedly sampling a batch of model outputs and filtering them through the reward model in an online learning regime. We then break down the reward optimization problem into three components: robustly optimizing the training rewards themselves, preventing reward hacking-exploitation of the reward model that degrades model performance-as measured by a novel METEOR similarity metric, and maintaining good performance on downstream evaluations. Our experimental results show SuperHF exceeds PPO-based RLHF on the training objective, easily and favorably trades off high reward with low reward hacking, improves downstream calibration, and performs the same on our GPT-4 based qualitative evaluation scheme all the while being significantly simpler to implement, highlighting SuperHF’s potential as a competitive language model alignment technique.
arxiv情報
著者 | Gabriel Mukobi,Peter Chatain,Su Fong,Robert Windesheim,Gitta Kutyniok,Kush Bhatia,Silas Alberti |
発行日 | 2023-10-25 16:52:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google