Massive Supervised Fine-tuning Experiments Reveal How Data, Layer, and Training Factors Shape LLM Alignment Quality

要約

監視された微調整(SFT)は、大規模な言語モデル(LLM)を人間の指示と価値観と整列させるための重要なステップですが、SFTの多くの側面はよく理解されていません。
コード生成、数学的推論、一般ドメインタスクなど、さまざまなデータセットで幅広いベースモデルをトレーニングし、制御された条件下で1,000以上のSFTモデルを実現しました。
次に、最も重要なデータセットプロパティを特定し、SFTによって導入されたレイヤーごとの変更を調べました。
私たちの調査結果は、一部のトレーニングタスクの相乗効果がすべてのモデルで持続し、他のモデルは大幅に異なることを明らかにし、モデル固有の戦略の重要性を強調しています。
さらに、困惑は一貫してSFTの有効性を予測し、しばしば訓練されたデータとベンチマークの間の表面的な類似性を超えることを予測し、中層の体重の変化はパフォーマンスの向上と最も強く相関することを実証します。
これらの1,000以上のSFTモデルとベンチマーク結果をリリースして、さらなる研究を加速します。

要約(オリジナル)

Supervised fine-tuning (SFT) is a critical step in aligning large language models (LLMs) with human instructions and values, yet many aspects of SFT remain poorly understood. We trained a wide range of base models on a variety of datasets including code generation, mathematical reasoning, and general-domain tasks, resulting in 1,000+ SFT models under controlled conditions. We then identified the dataset properties that matter most and examined the layer-wise modifications introduced by SFT. Our findings reveal that some training-task synergies persist across all models while others vary substantially, emphasizing the importance of model-specific strategies. Moreover, we demonstrate that perplexity consistently predicts SFT effectiveness–often surpassing superficial similarity between trained data and benchmark–and that mid-layer weight changes correlate most strongly with performance gains. We will release these 1,000+ SFT models and benchmark results to accelerate further research.

arxiv情報

著者 Yuto Harada,Yusuke Yamauchi,Yusuke Oda,Yohei Oseki,Yusuke Miyao,Yu Takagi
発行日 2025-06-17 16:13:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク