Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective

要約

コンピューティングの急速な進歩により、大規模な言語モデル(LLM)のトレーニングの規模とコストが劇的に増加します。
モデルトレーニングの前に下流のタスクパフォ​​ーマンスを正確に予測することは、効率的なリソース割り当てには重要ですが、2つの主要な制約のために困難なままです。(1)「出現現象」。
予測には小さなモデルを使用します。
(2)不均一なタスクの難易度分布と一貫したスケーリング法則がないため、実質的なメトリックの変動性が生じます。
既存のパフォーマンス予測方法は、限られた精度と信頼性に悩まされているため、潜在的なLLM機能の評価が妨げられます。
これらの課題に対処するために、我々は、不均等にクラスタリングする(COD)ダウンストリームパフォーマンス予測フレームワークを提案します。
CODは、難易度の機能に基づいてタスクをクラスタリングすることにより、予測可能なサポートサブセットを最初に構築し、非緊急および非スケーラブルなクラスターを戦略的に除外します。
選択したサブセットのスコアは、完全な評価セットでの下流パフォーマンスの効果的な中間予測因子として機能します。
理論的サポートにより、パフォーマンスメトリックを予測可能なサブセットから完全な評価セットに変換するマッピング関数を導き出し、それによりLLMダウンストリームパフォーマンスの正確な外挿を確保します。
提案された方法は、70B LLMのパフォーマンススケーリングを予測するために適用されており、リソースの割り当てをトレーニングし、トレーニングプロセスの監視を支援するための実用的な洞察を提供します。
特に、CODは、小さなモデルのアンサンブルを活用することにより、70B LLMで顕著な予測精度を達成し、8つの重要なLLM評価ベンチマークにわたって1.36%の絶対平均偏差を示しています。

要約(オリジナル)

The rapid advancements in computing dramatically increase the scale and cost of training Large Language Models (LLMs). Accurately predicting downstream task performance prior to model training is crucial for efficient resource allocation, yet remains challenging due to two primary constraints: (1) the ‘emergence phenomenon’, wherein downstream performance metrics become meaningful only after extensive training, which limits the ability to use smaller models for prediction; (2) Uneven task difficulty distributions and the absence of consistent scaling laws, resulting in substantial metric variability. Existing performance prediction methods suffer from limited accuracy and reliability, thereby impeding the assessment of potential LLM capabilities. To address these challenges, we propose a Clustering-On-Difficulty (COD) downstream performance prediction framework. COD first constructs a predictable support subset by clustering tasks based on difficulty features, strategically excluding non-emergent and non-scalable clusters. The scores on the selected subset serve as effective intermediate predictors of downstream performance on the full evaluation set. With theoretical support, we derive a mapping function that transforms performance metrics from the predictable subset to the full evaluation set, thereby ensuring accurate extrapolation of LLM downstream performance. The proposed method has been applied to predict performance scaling for a 70B LLM, providing actionable insights for training resource allocation and assisting in monitoring the training process. Notably, COD achieves remarkable predictive accuracy on the 70B LLM by leveraging an ensemble of small models, demonstrating an absolute mean deviation of 1.36% across eight important LLM evaluation benchmarks.

arxiv情報

著者 Chengyin Xu,Kaiyuan Chen,Xiao Li,Ke Shen,Chenggang Li
発行日 2025-02-24 15:44:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク