Farseer: A Refined Scaling Law in Large Language Models

要約

大規模な言語モデル(LLM)のトレーニングは非常に高価であり、小規模な実験からの洞察がリソース集約型の生産システムに移行できず、それによって効率的なイノベーションを妨げる重要なスケーリングギャップを作成します。
これを橋渡しするために、Scales全体で予測精度を強化する斬新で洗練されたスケーリング法則であるFarseerを紹介します。
モデル損失面$ l(n、d)$を体系的に構築することにより、Farseerは以前の法律(Chinchillaの法則など)よりも経験的データにより大幅に適切に適合します。
私たちの方法論は、正確で堅牢で非常に一般化可能な予測をもたらし、優れた外挿機能を実証し、外挿エラーを433 \%減らすことによりチンチラの法則を改善します。
これにより、すべての$(n、d)$の設定で競合するトレーニング戦略の信頼できる評価が可能になり、小規模なアブレーション研究からの結論を自信を持って推定して大規模なパフォーマンスを予測できるようになります。
さらに、Farseerは最適な計算割り当てに関する新しい洞察を提供し、現代のLLMトレーニングの微妙な要求をよりよく反映しています。
アプローチを検証するために、多様なスケールと構成にわたって約1,000 LLMの広範なスイートをトレーニングし、約300万個のNVIDIA H100 GPU時間を消費しました。
https://github.com/farseer-scaling-law/farseerで、すべてのモデル、データ、結果、ログを包括的にオープンソーシングして、さらなる研究を促進しています。

要約(オリジナル)

Training Large Language Models (LLMs) is prohibitively expensive, creating a critical scaling gap where insights from small-scale experiments often fail to transfer to resource-intensive production systems, thereby hindering efficient innovation. To bridge this, we introduce Farseer, a novel and refined scaling law offering enhanced predictive accuracy across scales. By systematically constructing a model loss surface $L(N,D)$, Farseer achieves a significantly better fit to empirical data than prior laws (e.g., Chinchilla’s law). Our methodology yields accurate, robust, and highly generalizable predictions, demonstrating excellent extrapolation capabilities, improving upon Chinchilla’s law by reducing extrapolation error by 433\%. This allows for the reliable evaluation of competing training strategies across all $(N,D)$ settings, enabling conclusions from small-scale ablation studies to be confidently extrapolated to predict large-scale performance. Furthermore, Farseer provides new insights into optimal compute allocation, better reflecting the nuanced demands of modern LLM training. To validate our approach, we trained an extensive suite of approximately 1,000 LLMs across diverse scales and configurations, consuming roughly 3 million NVIDIA H100 GPU hours. We are comprehensively open-sourcing all models, data, results, and logs at https://github.com/Farseer-Scaling-Law/Farseer to foster further research.

arxiv情報

著者 Houyi Li,Wenzhen Zheng,Qiufeng Wang,Zhenyu Ding,Haoying Wang,Zili Wang,Shijie Xuyang,Ning Ding,Shuigeng Zhou,Xiangyu Zhang,Daxin Jiang
発行日 2025-06-12 17:59:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, I.2 パーマリンク