要約
教師あり微調整 (SFT) とヒューマン フィードバックからの強化学習 (RLHF) は、事前トレーニング後の言語モデル (LM) の機能を強化し、人間の好みに合わせて調整するための 2 つの基本的なプロセスです。
SFT はトレーニング効率が向上しますが、RLHF はより良い調整を提供するため、これらを組み合わせて使用することがよくあります。
ただし、一般的なプラクティスでは、最適化ターゲットを統一せずに単にそれらを順番に適用するだけであり、その結果、異なる目的を適合させることと、パラダイムのギャップを埋めて両方の利点を活用する機会を無視することとの間でトレードオフが発生します。
統一された理解を得るために、マルコフ決定プロセス (MDP) フレームワーク内のトークン レベルで定義された 2 つのサブプロセス (優先順位推定と遷移最適化) を使用して SFT と RLHF を解釈します。
このモデリングは、SFT が RLHF の特殊なケースにすぎず、推定と最適化が劣っていることを示しています。
RLHF はモデルの生成された回答全体の品質を評価しますが、SFT はターゲット回答からの先行トークンに基づいて予測されたトークンのみをスコアリングします。
したがって、SFT はモデルの能力を過大評価し、最適化が不十分になります。
この見解に基づいて、SFT と RLHF を単一のプロセスに統合する直観的微調整 (IFT) を導入します。
IFT は、単一のポリシーと SFT と同じ量の非優先ラベル付きデータを使用しながら、一時的な残差接続を通じて回答全体に対する LM の直感的な感覚を捕捉します。
私たちの実験では、IFT が、いくつかのタスク、特に生成、推論、事実追跡能力を必要とするタスクにわたって、SFT の逐次レシピやいくつかの典型的な調整方法と同等またはそれ以上に機能することが示されています。
説明可能な Frozen Lake ゲームは、IFT の有効性をさらに検証します。
要約(オリジナル)
Supervised Fine-Tuning (SFT) and Reinforcement Learning from Human Feedback (RLHF) are two fundamental processes for enhancing the capabilities of Language Models (LMs) post pre-training, aligning them better with human preferences. Although SFT advances in training efficiency, RLHF delivers better alignment, thus they are often combined. However, common practices simply apply them sequentially without unifying their optimization targets, resulting in a trade-off between fitting different objectives, and ignoring the opportunities to bridge the paradigm gap and take the strength from both. To obtain a unified understanding, we interpret SFT and RLHF using two sub-processes — Preference Estimation and Transition Optimization — defined at token level within the Markov Decision Process (MDP) framework. This modeling shows that SFT is only a specialized case of RLHF with inferior estimation and optimization. RLHF evaluates the quality of model’s entire generated answer, whereas SFT only scores predicted tokens based on preceding tokens from target answers. Therefore, SFT overestimates the ability of model, leading to inferior optimization. Building on this view, we introduce Intuitive Fine-tuning (IFT) to integrate SFT and RLHF into a single process. IFT captures LMs’ intuitive sense of the entire answers through a temporal residual connection, while using a single policy and the same volume of non-preference-labeled data as SFT. Our experiments show that IFT performs comparably or even superiorly to sequential recipes of SFT and some typical alignment methods across several tasks, particularly those requires generation, reasoning, and fact-following abilities. An explainable Frozen Lake game further validates the effectiveness of IFT.
arxiv情報
著者 | Ermo Hua,Biqing Qi,Kaiyan Zhang,Yue Yu,Ning Ding,Xingtai Lv,Kai Tian,Bowen Zhou |
発行日 | 2024-05-20 08:23:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google