Predicting Emergent Abilities with Infinite Resolution Evaluation

要約

大規模言語モデル (LLM) を科学的にスケールアップするには、そのスケーリング特性を包括的に理解する必要があります。
しかし、スケーリング特性に関する既存の文献は、不完全な答えしか得ていません。つまり、確立されたスケーリング則に従って、モデルのサイズが増加するにつれて、最適化損失は予測どおり減少します。
まだタスクのスケーリング則は確立されておらず、スケーリング中のタスクのパフォーマンスは予測可能とは程遠いです。
通常、タスクのパフォーマンスは、モデルがサイズのしきい値を超えると劇的に向上するまで、小規模なモデルではわずかな向上を示しますが、これは「緊急能力」の例となります。
この研究では、小規模なモデルは、わずかなパフォーマンスしか示さないものの、測定分解能が不十分なために従来の評価戦略では捉えられない、重要かつ一貫したタスクパフォ​​ーマンスの向上を示していることを発見しました。
このような改善を測定するために、デコード段階での大規模なサンプリングを通じて理論的に無限の解像度を持つ評価戦略である PassUntil を導入します。
PassUntil を使用して、タスクのパフォーマンスのスケーリング則について定量的な調査を行います。
調査は 2 つの部分から構成されます。
まず、従来は存在が知られていなかった厳密なタスク スケーリング則が特定され、タスクのパフォーマンスの予測可能性が高まります。
驚くべきことに、コード生成における 2.4B モデルのパフォーマンスを、トレーニング開始前にわずか 0.05\% の偏差で予測できました。これは、GPT-4 のレポートで提案された予測可能なスケーリングを検証する最初の体系的な試みです。
第二に、創発的な能力を定量的に研究できることです。
我々は、そのスケーリング曲線が標準のスケーリング則関数に適合できず、速度が増加している一種の加速された出現を特定します。
次に、2 つの仮説を検証し、「複数回路仮説」が出現の加速に関与している可能性があることを示唆します。

要約(オリジナル)

The scientific scale-up of large language models (LLMs) necessitates a comprehensive understanding of their scaling properties. However, the existing literature on the scaling properties only yields an incomplete answer: optimization loss decreases predictably as the model size increases, in line with established scaling law; yet no scaling law for task has been established and the task performances are far from predictable during scaling. Task performances typically show minor gains on small models until they improve dramatically once models exceed a size threshold, exemplifying the “emergent abilities”. In this study, we discover that small models, although they exhibit minor performance, demonstrate critical and consistent task performance improvements that are not captured by conventional evaluation strategies due to insufficient measurement resolution. To measure such improvements, we introduce PassUntil, an evaluation strategy with theoretically infinite resolution, through massive sampling in the decoding phase. With PassUntil, we conduct a quantitative investigation into the scaling law of task performance. The investigation contains two parts. Firstly, a strict task scaling law that is not conventionally known to exist, is identified, enhancing the predictability of task performances. Remarkably, we are able to predict the performance of the 2.4B model on code generation with merely 0.05\% deviation before training starts, which is the first systematic attempt to verify predictable scaling proposed by GPT-4’s report. Secondly, we are able to study emergent abilities quantitatively. We identify a kind of accelerated emergence whose scaling curve cannot be fitted by standard scaling law function and has a increasing speed. We then examine two hypothesis and imply that the “multiple circuits hypothesis” might be responsible for the accelerated emergence.

arxiv情報

著者 Shengding Hu,Xin Liu,Xu Han,Xinrong Zhang,Chaoqun He,Weilin Zhao,Yankai Lin,Ning Ding,Zebin Ou,Guoyang Zeng,Zhiyuan Liu,Maosong Sun
発行日 2024-04-17 13:43:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク