要約
このホワイトペーパーでは、スケーリング法によって支配されたスムーズな改善とは対照的に、大規模な言語モデルのパフォーマンスにおける突然の突破口の性質を探ります。
「出現」の支持者は、パフォーマンスが急激なパフォーマンスの向上を特定のスケールでロック解除する能力を獲得していると見ていますが、他の人は、しきい値の効果によって生成され、連続的なメトリックによって緩和されることを示唆しています。
代わりに、ブレークスルーは、特にパフォーマンスがランダムシード全体に二峰性に分布している場合、トレーニング結果の確率分布の継続的な変化によって駆動されることを提案します。
合成長の一般化タスクでは、異なるランダムシードが非常に線形または緊急のスケーリング傾向のいずれかを生成できることを示します。
メトリックの鋭いブレークスルーは、種子全体の分布の根本的な継続的な変化によって生成されることを明らかにします。
さらに、逆スケーリングのケーススタディを提供し、成功したランの可能性が低下したとしても、成功したランの平均パフォーマンスが単調に増加し続けることを示しています。
LLM集団のMMLUパフォーマンスを測定することにより、現実的な設定に関する分布スケーリングフレームワークを検証します。
これらの洞察は、LLM機能に対するスケールの影響におけるランダム変動の役割を強調しています。
要約(オリジナル)
In this paper, we explore the nature of sudden breakthroughs in language model performance at scale, which stands in contrast to smooth improvements governed by scaling laws. While advocates of ‘emergence’ view abrupt performance gains as capabilities unlocking at specific scales, others have suggested that they are produced by thresholding effects and alleviated by continuous metrics. We propose that breakthroughs are instead driven by continuous changes in the probability distribution of training outcomes, particularly when performance is bimodally distributed across random seeds. In synthetic length generalization tasks, we show that different random seeds can produce either highly linear or emergent scaling trends. We reveal that sharp breakthroughs in metrics are produced by underlying continuous changes in their distribution across seeds. Furthermore, we provide a case study of inverse scaling and show that even as the probability of a successful run declines, the average performance of a successful run continues to increase monotonically. We validate our distributional scaling framework on realistic settings by measuring MMLU performance in LLM populations. These insights emphasize the role of random variation in the effect of scale on LLM capabilities.
arxiv情報
著者 | Rosie Zhao,Tian Qin,David Alvarez-Melis,Sham Kakade,Naomi Saphra |
発行日 | 2025-02-24 17:34:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google