Entropic Distribution Matching in Supervised Fine-tuning of LLMs: Less Overfitting and Better Diversity

要約

大規模な言語モデルは、下流のタスクに特化するために教師あり微調整 (SFT) に依存しています。
クロス エントロピー (CE) 損失は SFT における事実上の選択ですが、データ分布を積極的に更新するため、オーバーフィッティングや出力多様性の制限につながることがよくあります。
このペーパーは、データを効果的に捕捉するより平坦な分布を持つモデルを優先する最大エントロピー原理を導入することで、これらの問題に対処することを目的としています。
具体的には、エントロピー正則化器を使用して逆カルバック・ライブラー発散最小化を解く、GEM と呼ばれる新しい分布マッチング手法を開発します。
Llama-3-8B モデルの SFT では、GEM はいくつかの点で CE を上回ります。
まず、一般的な命令追従能力を開発するために UltraFeedback データセットに適用すると、GEM は過学習が減少し、これは IFEval ベンチマークでの混乱の軽減とパフォーマンスの向上によって証明されています。
さらに、GEM は出力の多様性を強化し、ドメイン固有のデータがない場合でも、best-of-n サンプリングを使用した数学的推論とコード生成タスクで最大 7 ポイントのパフォーマンス向上をもたらします。
第 2 に、数学的推論とコード生成のためにドメイン固有のデータセットを使用して微調整すると、GEM は過剰適合が少なく、CE と比較して最大 10 ポイントの改善が見られます。

要約(オリジナル)

Large language models rely on Supervised Fine-Tuning (SFT) to specialize in downstream tasks. Cross Entropy (CE) loss is the de facto choice in SFT, but it often leads to overfitting and limited output diversity due to its aggressive updates to the data distribution. This paper aim to address these issues by introducing the maximum entropy principle, which favors models with flatter distributions that still effectively capture the data. Specifically, we develop a new distribution matching method called GEM, which solves reverse Kullback-Leibler divergence minimization with an entropy regularizer. For the SFT of Llama-3-8B models, GEM outperforms CE in several aspects. First, when applied to the UltraFeedback dataset to develop general instruction-following abilities, GEM exhibits reduced overfitting, evidenced by lower perplexity and better performance on the IFEval benchmark. Furthermore, GEM enhances output diversity, leading to performance gains of up to 7 points on math reasoning and code generation tasks using best-of-n sampling, even without domain-specific data. Second, when fine-tuning with domain-specific datasets for math reasoning and code generation, GEM also shows less overfitting and improvements of up to 10 points compared with CE.

arxiv情報

著者 Ziniu Li,Congliang Chen,Tian Xu,Zeyu Qin,Jiancong Xiao,Ruoyu Sun,Zhi-Quan Luo
発行日 2024-08-29 16:21:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク