How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition

要約

膨大な事前トレーニング トークンとパラメーター量を備えた大規模言語モデル (LLM) により、数学的推論、コード生成、命令追従などの能力が生まれます。
これらの機能は、教師あり微調整 (SFT) によってさらに強化されます。
オープンソース コミュニティでは、各能力に応じたアドホック SFT が研究されていますが、独自の LLM はすべての能力に多用途です。
SFT を介して複数の能力でそれらをロック解除する方法を調査することが重要です。
この研究では、SFT 中の数学的推論、コード生成、および一般的な人間の調整能力の間のデータ構成に特に焦点を当てています。
スケーリングの観点から、データ量、データ構成比、モデルパラメータ、SFT戦略などのさまざまな要素とモデルの能力との関係を調査します。
私たちの実験では、能力が異なればスケーリング パターンも異なり、一般に、同じ量のデータでもより大きなモデルの方が優れたパフォーマンスを示すことが明らかになりました。
数学的推論とコード生成はデータ量が一貫して増加するにつれて向上しますが、一般的な能力は約 1,000 サンプルで強化され、ゆっくりと向上します。
データの合成により、データ量が少ない場合にはさまざまな能力の向上が見られますが、データ量が多い場合には能力が競合することがわかります。
さらに、実験では、構成データ量がパフォーマンスに影響を与える一方、構成比の影響はわずかであることを示しています。
SFT戦略に関して、私たちは逐次学習の複数の能力を評価しますが、致命的な忘れを起こしやすいです。
私たちが提案するデュアルステージ混合微調整 (DMT) 戦略は、最初に特殊な能力を学習し、次に少量の特殊なデータを使用して一般的な能力を学習して忘れを防ぎ、異なるスケーリング パターンで複数の能力を学習するための有望なソリューションを提供します。

要約(オリジナル)

Large language models (LLMs) with enormous pre-training tokens and parameter amounts emerge abilities, including math reasoning, code generation, and instruction following. These abilities are further enhanced by supervised fine-tuning (SFT). The open-source community has studied on ad-hoc SFT for each ability, while proprietary LLMs are versatile for all abilities. It is important to investigate how to unlock them with multiple abilities via SFT. In this study, we specifically focus on the data composition between mathematical reasoning, code generation, and general human-aligning abilities during SFT. From a scaling perspective, we investigate the relationship between model abilities and various factors including data amounts, data composition ratio, model parameters, and SFT strategies. Our experiments reveal that different abilities exhibit different scaling patterns, and larger models generally show superior performance with the same amount of data. Mathematical reasoning and code generation improve as data amounts increase consistently, while the general ability is enhanced with about a thousand samples and improves slowly. We find data composition results in various abilities improvements with low data amounts, while conflicts of abilities with high data amounts. Our experiments further show that composition data amount impacts performance, while the influence of composition ratio is insignificant. Regarding the SFT strategies, we evaluate sequential learning multiple abilities are prone to catastrophic forgetting. Our proposed Dual-stage Mixed Fine-tuning (DMT) strategy learns specialized abilities first and then learns general abilities with a small amount of specialized data to prevent forgetting, offering a promising solution to learn multiple abilities with different scaling patterns.

arxiv情報

著者 Guanting Dong,Hongyi Yuan,Keming Lu,Chengpeng Li,Mingfeng Xue,Dayiheng Liu,Wei Wang,Zheng Yuan,Chang Zhou,Jingren Zhou
発行日 2023-11-01 07:11:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク