How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition

要約

膨大な事前トレーニング トークンとパラメーターを備えた大規模言語モデル (LLM) は、数学的推論、コード生成、命令追従などのさまざまな能力を生み出します。
これらの機能は、教師あり微調整 (SFT) によってさらに強化されます。
オープンソース コミュニティは個人の能力を強化するためにアドホック SFT を模索してきましたが、独自の LLM はさまざまなスキルにわたって汎用性を示します。
したがって、SFT による複数の能力の促進を理解することが最も重要です。
この研究では、SFT 中の数学的推論、コード生成、および一般的な人間の調整能力の間のデータ構成の相互作用に特に焦点を当てています。
モデルのパフォーマンスと、データ量、構成比、モデル サイズ、SFT 戦略などのさまざまな要素との関連性を調査するために、4 つの興味深い研究課題を提案します。
私たちの実験では、機能ごとにスケールが異なり、大規模なモデルは一般に同じ量のデータで優れたパフォーマンスを示すことが明らかになりました。
数学的推論とコード生成はデータ量の増加とともに一貫して向上しますが、一般的な能力はサンプル数が約 1,000 個を超えると頭打ちになります。
さらに、限られたデータ条件下ではデータ構成によりさまざまな能力が向上するように見えますが、データが豊富な場合にはパフォーマンスの競合が発生する可能性があることが観察されています。
私たちの調査結果は、構成データの量が構成比よりもパフォーマンスに影響を与えることも示唆しています。
SFT 戦略を分析すると、複数のスキルを順番に学習すると、壊滅的な忘却の危険があることがわかりました。
私たちが提案するデュアルステージ混合微調整 (DMT) 戦略は、異なるスケーリング パターンで複数の能力を学習するための有望なソリューションを提供します。

要約(オリジナル)

Large language models (LLMs) with enormous pre-training tokens and parameters emerge diverse abilities, including math reasoning, code generation, and instruction following. These abilities are further enhanced by supervised fine-tuning (SFT). While the open-source community has explored ad-hoc SFT for enhancing individual capabilities, proprietary LLMs exhibit versatility across various skills. Therefore, understanding the facilitation of multiple abilities via SFT is paramount. In this study, we specifically focuses on the interplay of data composition between mathematical reasoning, code generation, and general human-aligning abilities during SFT. We propose four intriguing research questions to explore the association between model performance and various factors including data amount, composition ratio, model size and SFT strategies. Our experiments reveal that distinct capabilities scale differently and larger models generally show superior performance with same amount of data. Mathematical reasoning and code generation consistently improve with increasing data amount, whereas general abilities plateau after roughly a thousand samples. Moreover, we observe data composition appears to enhance various abilities under limited data conditions, yet can lead to performance conflicts when data is plentiful. Our findings also suggest the amount of composition data influences performance more than the composition ratio. In analysis of SFT strategies, we find that sequentially learning multiple skills risks catastrophic forgetting. Our proposed Dual-stage Mixed Fine-tuning (DMT) strategy offers a promising solution to learn multiple abilities with different scaling patterns.

arxiv情報

著者 Guanting Dong,Hongyi Yuan,Keming Lu,Chengpeng Li,Mingfeng Xue,Dayiheng Liu,Wei Wang,Zheng Yuan,Chang Zhou,Jingren Zhou
発行日 2024-01-19 06:06:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク