Large Language Monkeys: Scaling Inference Compute with Repeated Sampling

要約

言語モデルのトレーニングに使用されるコンピューティング量をスケーリングすることで、言語モデルの機能が劇的に向上しました。
ただし、推論に関しては、計算量を問題ごとに 1 回のみに制限することがよくあります。
ここでは、生成されるサンプルの数を増やすことによるスケーリングの別の軸として推論計算を検討します。
複数のタスクとモデルにわたって、カバレッジ (何らかの試行によって解決される問題の割合) がサンプル数に応じて 4 桁以上増加することが観察されます。
すべての回答を自動的に検証できるコーディングや形式的証明などの分野では、カバレッジの増加はパフォーマンスの向上に直接つながります。
繰り返しサンプリングを SWE-bench Lite に適用すると、DeepSeek-V2-Coder-Instruct で解決された問題の割合は 1 サンプルの 15.9% から 250 サンプルの 56% に増加し、1 回の試行による最先端のパフォーマンスを上回りました。
43% は、より有能なフロンティア モデルを使用します。
さらに、現在の API 価格設定を使用すると、GPT-4o または Claude 3.5 Sonnet の 1 つのサンプルにプレミアムを支払うよりも、5 つのサンプルで安価な DeepSeek モデルを増幅する方がコスト効率が高く、多くの問題を解決できます。
興味深いことに、カバレッジとサンプル数の関係は対数線形であることが多く、べき乗則でモデル化できるため、推論時間のスケーリング則の存在が示唆されます。
最後に、多くの世代の中から正しいサンプルを特定することが、自動検証機能のない領域における将来の研究にとって依然として重要な方向性であることがわかりました。
GSM8K および MATH の数学文章題を解く場合、Llama-3 モデルのカバレッジは 10,000 サンプルで 95% 以上に増加します。
ただし、多数決や報酬モデルなど、サンプル コレクションから正しい解決策を選択する一般的な方法は、数百サンプルを超えると頭打ちになり、サンプル予算に合わせて完全に拡張できません。

要約(オリジナル)

Scaling the amount of compute used to train language models has dramatically improved their capabilities. However, when it comes to inference, we often limit the amount of compute to only one attempt per problem. Here, we explore inference compute as another axis for scaling by increasing the number of generated samples. Across multiple tasks and models, we observe that coverage – the fraction of problems solved by any attempt – scales with the number of samples over four orders of magnitude. In domains like coding and formal proofs, where all answers can be automatically verified, these increases in coverage directly translate into improved performance. When we apply repeated sampling to SWE-bench Lite, the fraction of issues solved with DeepSeek-V2-Coder-Instruct increases from 15.9% with one sample to 56% with 250 samples, outperforming the single-attempt state-of-the-art of 43% which uses more capable frontier models. Moreover, using current API pricing, amplifying the cheaper DeepSeek model with five samples is more cost-effective and solves more issues than paying a premium for one sample from GPT-4o or Claude 3.5 Sonnet. Interestingly, the relationship between coverage and the number of samples is often log-linear and can be modelled with an exponentiated power law, suggesting the existence of inference-time scaling laws. Finally, we find that identifying correct samples out of many generations remains an important direction for future research in domains without automatic verifiers. When solving math word problems from GSM8K and MATH, coverage with Llama-3 models grows to over 95% with 10,000 samples. However, common methods to pick correct solutions from a sample collection, such as majority voting or reward models, plateau beyond several hundred samples and fail to fully scale with the sample budget.

arxiv情報

著者 Bradley Brown,Jordan Juravsky,Ryan Ehrlich,Ronald Clark,Quoc V. Le,Christopher Ré,Azalia Mirhoseini
発行日 2024-09-16 17:58:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク