LLMs on the Line: Data Determines Loss-to-Loss Scaling Laws

要約

スケーリング法は、モデルサイズ、トークン、および計算の最適なバランスの推定値を提供することにより、大規模な言語モデル(LLMS)の開発を導きます。
より最近では、LLMのパフォーマンスを理解し、改善するための強力なツールとして、事前トレーニングデータセットとダウンストリームタスク全体で損失を関連付ける損失から失われたスケーリング法則が浮上しています。
この作業では、どの要因が損失から失われたスケーリングに強く影響するかを調査します。
私たちの実験では、事前削除データとトークン剤がスケーリングの傾向を決定することが明らかになりました。
対照的に、モデルサイズ、最適化ハイパーパラメーター、さらには、Llamaなどの変圧器ベースのモデルやMambaなどの状態空間モデルなどの重要なアーキテクチャの違いは、影響が限られています。
その結果、開業医は最適なダウンストリームパフォーマンスのために適切な事前トレーニングデータセットを慎重にキュレートする必要がありますが、アーキテクチャやその他の設定はトレーニング効率のために自由に最適化できます。

要約(オリジナル)

Scaling laws guide the development of large language models (LLMs) by offering estimates for the optimal balance of model size, tokens, and compute. More recently, loss-to-loss scaling laws that relate losses across pretraining datasets and downstream tasks have emerged as a powerful tool for understanding and improving LLM performance. In this work, we investigate which factors most strongly influence loss-to-loss scaling. Our experiments reveal that the pretraining data and tokenizer determine the scaling trend. In contrast, model size, optimization hyperparameters, and even significant architectural differences, such as between transformer-based models like Llama and state-space models like Mamba, have limited impact. Consequently, practitioners should carefully curate suitable pretraining datasets for optimal downstream performance, while architectures and other settings can be freely optimized for training efficiency.

arxiv情報

著者 Prasanna Mayilvahanan,Thaddäus Wiedemer,Sayak Mallick,Matthias Bethge,Wieland Brendel
発行日 2025-02-17 18:45:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク