Parallel Scaling Law for Language Models

要約

パラメーター(パラメータースケーリング)または出力トークン(推論時間スケーリング)を増やすことにより、言語モデルのスケーリングモデルはかなりのスペースまたは時間コストをコミットする必要があると一般に考えられています。
3番目のより推論効率の高いスケーリングパラダイムを紹介します。トレーニング時間と推論時間の両方でモデルの並列計算を増やします。
入力に$ P $の多様で学習可能な変換を適用し、モデルのフォワードパスを並行して実行し、$ P $の出力を動的に集約します。
この方法、つまり並列スケーリング(パースケール)は、既存のパラメーターを再利用することにより並列計算をスケールし、任意のモデル構造、最適化手順、データ、またはタスクに適用できます。
理論的には新しいスケーリング法を提案し、大規模なスケール前トレーニングを通じて検証します。これは、$ P $並列ストリームを持つモデルが、優れた推論効率を示しながらパラメーターを$ O(\ log P)$でスケーリングすることに似ていることを示しています。
たとえば、パースケールは、同じパフォーマンスの改善を達成するパラメータースケーリングと比較して、最大22 $ \ Times $メモリの増加と6 $ \ Times $のレイテンシの増加を使用できます。
また、少量のトークンでトレーニング後に並行してスケーリングされたモデルに既製の事前に訓練されたモデルをリサイクルし、トレーニング予算をさらに削減することができます。
発見した新しいスケーリング法は、低リソースシナリオでより強力なモデルの展開を促進する可能性があり、機械学習における計算の役割の代替視点を提供します。

要約(オリジナル)

It is commonly believed that scaling language models should commit a significant space or time cost, by increasing the parameters (parameter scaling) or output tokens (inference-time scaling). We introduce the third and more inference-efficient scaling paradigm: increasing the model’s parallel computation during both training and inference time. We apply $P$ diverse and learnable transformations to the input, execute forward passes of the model in parallel, and dynamically aggregate the $P$ outputs. This method, namely parallel scaling (ParScale), scales parallel computation by reusing existing parameters and can be applied to any model structure, optimization procedure, data, or task. We theoretically propose a new scaling law and validate it through large-scale pre-training, which shows that a model with $P$ parallel streams is similar to scaling the parameters by $O(\log P)$ while showing superior inference efficiency. For example, ParScale can use up to 22$\times$ less memory increase and 6$\times$ less latency increase compared to parameter scaling that achieves the same performance improvement. It can also recycle an off-the-shelf pre-trained model into a parallelly scaled one by post-training on a small amount of tokens, further reducing the training budget. The new scaling law we discovered potentially facilitates the deployment of more powerful models in low-resource scenarios, and provides an alternative perspective for the role of computation in machine learning.

arxiv情報

著者 Mouxiang Chen,Binyuan Hui,Zeyu Cui,Jiaxi Yang,Dayiheng Liu,Jianling Sun,Junyang Lin,Zhongxin Liu
発行日 2025-05-15 16:24:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク