A Scaling Law for Token Efficiency in LLM Fine-Tuning Under Fixed Compute Budgets

要約

データ構成を明示的に説明する固定計算予算の下で、大規模な言語モデル(LLMS)を微調整するためのスケーリング法を導入します。
従来のアプローチでは、トークンのトークンのみがトレーニングデータを測定しますが、例の数とその平均トークンの長さ – 私たちが\ emph {datasetボリューム}と呼ぶもの – は、モデルのパフォーマンスにおいて決定的な役割を果たします。
私たちの定式化は、確立された手順に従って調整されています。
BRICCデータセットの実験\ Cite {Salavati2024レッディング}およびMMLU DataSet \ Cite {HendryCKS2021MassiveMultiTasklanguage}のサブセットは、複数のサブサンプリング戦略の下で評価され、データ組成が効率に有意に影響することを明らかにします。
これらの結果は、リソースに制約のある設定で実用的なLLM微調整のための洗練されたスケーリング法則を動機づけます。

要約(オリジナル)

We introduce a scaling law for fine-tuning large language models (LLMs) under fixed compute budgets that explicitly accounts for data composition. Conventional approaches measure training data solely by total tokens, yet the number of examples and their average token length — what we term \emph{dataset volume} — play a decisive role in model performance. Our formulation is tuned following established procedures. Experiments on the BRICC dataset \cite{salavati2024reducing} and subsets of the MMLU dataset \cite{hendrycks2021measuringmassivemultitasklanguage}, evaluated under multiple subsampling strategies, reveal that data composition significantly affects token efficiency. These results motivate refined scaling laws for practical LLM fine-tuning in resource-constrained settings.

arxiv情報

著者 Ryan Lagasse,Aidan Kiernans,Avijit Ghosh,Shiri Dori-Hacohen
発行日 2025-05-09 16:02:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク