要約
教師あり微調整 (SFT) と好みの最適化 (PO) は、事前トレーニング後に言語モデル (LM) の機能を強化し、人間の好みに合わせて調整するための 2 つの基本的なプロセスです。
SFT はトレーニング効率が向上しますが、PO はより良い調整を提供するため、これらを組み合わせて使用することがよくあります。
しかし、一般的な手法では、最適化目標を統合することなく、単にそれらを順番に適用し、パラダイムのギャップを埋めて両方の長所を引き出す機会を無視しています。
統一された理解を得るために、マルコフ決定プロセス (MDP) フレームワーク内でトークン レベルで定義された 2 つのサブプロセス (優先順位推定と遷移最適化) を使用して SFT と PO を解釈します。
このモデリングは、SFT が推定と最適化が劣った PO の特殊なケースにすぎないことを示しています。
PO はモデルの生成された回答全体の品質を評価しますが、SFT はターゲット回答からの先行トークンに基づいて予測されたトークンのみをスコアリングします。
したがって、SFT はモデルの能力を過大評価し、最適化が不十分になります。
この見解に基づいて、SFT とプリファレンスの最適化を単一のプロセスに統合する直観的微調整 (IFT) を導入します。
IFT は、一時的な残差接続を通じて LM の全体的な回答の直感的な感覚を捕捉しますが、単一のポリシーと SFT と同じ量の非優先ラベル付きデータのみに依存します。
私たちの実験では、IFT がいくつかのタスク、特に生成、推論、および事実追跡能力を必要とするタスクにわたって、SFT の逐次レシピやいくつかの典型的な優先最適化手法と同等またはそれ以上にパフォーマンスを発揮することが示されています。
説明可能な Frozen Lake ゲームは、競争政策を実現するための IFT の有効性をさらに検証します。
要約(オリジナル)
Supervised Fine-Tuning (SFT) and Preference Optimization (PO) are two fundamental processes for enhancing the capabilities of Language Models (LMs) post pre-training, aligning them better with human preferences. Although SFT advances in training efficiency, PO delivers better alignment, thus they are often combined. However, common practices simply apply them sequentially without integrating their optimization objectives, ignoring the opportunities to bridge their paradigm gap and take the strengths from both. To obtain a unified understanding, we interpret SFT and PO with two sub-processes — Preference Estimation and Transition Optimization — defined at token level within the Markov Decision Process (MDP) framework. This modeling shows that SFT is only a specialized case of PO with inferior estimation and optimization. PO evaluates the quality of model’s entire generated answer, whereas SFT only scores predicted tokens based on preceding tokens from target answers. Therefore, SFT overestimates the ability of model, leading to inferior optimization. Building on this view, we introduce Intuitive Fine-Tuning (IFT) to integrate SFT and Preference Optimization into a single process. IFT captures LMs’ intuitive sense of the entire answers through a temporal residual connection, but it solely relies on a single policy and the same volume of non-preference-labeled data as SFT. Our experiments show that IFT performs comparably or even superiorly to sequential recipes of SFT and some typical Preference Optimization methods across several tasks, particularly those requires generation, reasoning, and fact-following abilities. An explainable Frozen Lake game further validates the effectiveness of IFT for getting competitive policy.
arxiv情報
著者 | Ermo Hua,Biqing Qi,Kaiyan Zhang,Yue Yu,Ning Ding,Xingtai Lv,Kai Tian,Bowen Zhou |
発行日 | 2024-05-28 16:14:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google