Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters

要約

LLM がより多くのテスト時の計算を使用して出力を改善できるようにすることは、オープンエンドの自然言語で動作できる一般的な自己改善エージェントを構築するための重要なステップです。
このペーパーでは、LLM での推論時間計算のスケーリングについて、次の質問に答えることに焦点を当てて研究します。LLM が固定ではあるが重要な量の推論時間計算の使用を許可されている場合、その計算はどの程度改善できるでしょうか。
難しいプロンプトでのパフォーマンスはどうですか?
この質問に答えることは、LLM の達成可能なパフォーマンスだけでなく、LLM 事前トレーニングの将来や、推論時間と事前トレーニングの計算をどのようにトレードオフするかにも影響します。
その重要性にもかかわらず、さまざまなテスト時の推論方法のスケーリング動作を理解しようとした研究はほとんどありませんでした。
さらに、現在の研究は、これらの戦略の多くに対して否定的な結果をもたらしています。
この研究では、テスト時の計算を拡張するための 2 つの主要なメカニズムを分析します。(1) 高密度のプロセスベースの検証者報酬モデルに対する検索。
(2) テスト時にプロンプ​​トが与えられた場合、応答全体にわたるモデルの分布を適応的に更新します。
どちらの場合も、テスト時間の計算をスケーリングするためのさまざまなアプローチの有効性は、プロンプトの難易度に応じて大きく異なることがわかりました。
この観察は、プロンプトごとにテスト時間のコンピューティングを適応的に最も効果的に割り当てるように機能する、「コンピューティング最適化」スケーリング戦略を適用する動機になります。
このコンピューティング最適化戦略を使用すると、ベストオブ N ベースラインと比較して、テスト時のコンピューティング スケーリングの効率を 4 倍以上向上させることができます。
さらに、FLOP に一致する評価では、小規模な基本モデルがやや自明ではない成功率を達成する問題では、テスト時の計算を使用して 14 倍の大きなモデルを上回るパフォーマンスを発揮できることがわかりました。

要約(オリジナル)

Enabling LLMs to improve their outputs by using more test-time computation is a critical step towards building generally self-improving agents that can operate on open-ended natural language. In this paper, we study the scaling of inference-time computation in LLMs, with a focus on answering the question: if an LLM is allowed to use a fixed but non-trivial amount of inference-time compute, how much can it improve its performance on a challenging prompt? Answering this question has implications not only on the achievable performance of LLMs, but also on the future of LLM pretraining and how one should tradeoff inference-time and pre-training compute. Despite its importance, little research attempted to understand the scaling behaviors of various test-time inference methods. Moreover, current work largely provides negative results for a number of these strategies. In this work, we analyze two primary mechanisms to scale test-time computation: (1) searching against dense, process-based verifier reward models; and (2) updating the model’s distribution over a response adaptively, given the prompt at test time. We find that in both cases, the effectiveness of different approaches to scaling test-time compute critically varies depending on the difficulty of the prompt. This observation motivates applying a ‘compute-optimal’ scaling strategy, which acts to most effectively allocate test-time compute adaptively per prompt. Using this compute-optimal strategy, we can improve the efficiency of test-time compute scaling by more than 4x compared to a best-of-N baseline. Additionally, in a FLOPs-matched evaluation, we find that on problems where a smaller base model attains somewhat non-trivial success rates, test-time compute can be used to outperform a 14x larger model.

arxiv情報

著者 Charlie Snell,Jaehoon Lee,Kelvin Xu,Aviral Kumar
発行日 2024-08-06 17:35:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク