要約
大規模言語モデル(LLM)学習のスケーリング則は広く研究されているが、LLMの最適な推論構成はまだ十分に研究されていない。我々は、推論スケーリング則(別名テスト時間スケーリング則)と計算最適推論を研究し、モデルサイズと異なる推論戦略による追加トークン生成のトレードオフに焦点を当てる。計算最適推論手法を理解し設計するための第一歩として、貪欲探索、多数決、ベストオブ$-n$、重み付き投票、2つの異なる木探索アルゴリズムなどの推論戦略について、異なるモデルサイズと計算バジェットを用いて、コストと性能のトレードオフを研究した。我々の発見は、推論戦略を用いて推論計算量をスケーリングすることは、モデルパラメータをスケーリングすることよりも計算効率が高いことを示唆している。さらに、より小さなモデルと高度な推論アルゴリズムの組み合わせは、コストと性能のパレート最適トレードオフを提供する。例えば、Llemma-7Bモデルは、我々の新しい木探索アルゴリズムと組み合わせた場合、MATHベンチマークでテストされたすべての推論戦略において、Llemma-34Bモデルを一貫して上回った。これらの洞察が、LLMの推論スケーリング則(テスト時間スケーリング則)のより深い理解に貢献することを期待している。
要約(オリジナル)
While the scaling laws of large language models (LLMs) training have been extensively studied, optimal inference configurations of LLMs remain underexplored. We study inference scaling laws (aka test-time scaling laws) and compute-optimal inference, focusing on the trade-offs between model sizes and generating additional tokens with different inference strategies. As a first step towards understanding and designing compute-optimal inference methods, we studied cost-performance trade-offs for inference strategies such as greedy search, majority voting, best-of-$n$, weighted voting, and two different tree search algorithms, using different model sizes and compute budgets. Our findings suggest that scaling inference compute with inference strategies can be more computationally efficient than scaling model parameters. Additionally, smaller models combined with advanced inference algorithms offer Pareto-optimal trade-offs in cost and performance. For example, the Llemma-7B model, when paired with our novel tree search algorithm, consistently outperforms the Llemma-34B model across all tested inference strategies on the MATH benchmark. We hope these insights contribute to a deeper understanding of inference scaling laws (test-time scaling laws) for LLMs.
arxiv情報
著者 | Yangzhen Wu,Zhiqing Sun,Shanda Li,Sean Welleck,Yiming Yang |
発行日 | 2025-03-03 07:53:32+00:00 |
arxivサイト | arxiv_id(pdf) |