要約
大規模言語モデル(LLM)は、モデルサイズやデータをスケールアップすることで大幅な性能向上を達成してきた。しかし、最近の証拠によると、そのようなアプローチから得られる利益が減少していることが示唆されており、推論時間に費やされる計算をスケーリングする動機付けとなっている。既存の推論時間スケーリング手法は、通常、報酬モデルを用いて、タスクを探索問題として扱う。本論文では、その代わりに、推論時間スケーリングを確率的推論タスクとし、そのモードを直接最適化するのではなく、近似尤度で状態空間モデルの状態分布の典型的な集合を探索するサンプリングベースの技術を活用する。我々は、粒子ベースのモンテカルロ法をこのタスクに適応させることで、新しい推論時間スケーリングアプローチを提案する。我々の実証的評価により、様々な困難な数学的推論タスクにおいて、我々の手法が決定論的探索の同等手法よりも4~16倍のスケーリング率を持つことが実証された。Qwen2.5-Math-1.5B-Instructはわずか4回のロールアウトでGPT-4oの精度を超え、Qwen2.5-Math-7B-Instructはわずか32回のロールアウトでo1レベルの精度までスケールする。我々の研究は、推論時間スケーリングの効果的な方法を提示するだけでなく、確率的推論における豊富な文献をLLMの推論時間スケーリングと結びつけることで、よりロバストなアルゴリズムを開発することを目指す。コードと詳細情報はhttps://probabilistic-inference-scaling.github.io。
要約(オリジナル)
Large language models (LLMs) have achieved significant performance gains via scaling up model sizes and/or data. However, recent evidence suggests diminishing returns from such approaches, motivating scaling the computation spent at inference time. Existing inference-time scaling methods, usually with reward models, cast the task as a search problem, which tends to be vulnerable to reward hacking as a consequence of approximation errors in reward models. In this paper, we instead cast inference-time scaling as a probabilistic inference task and leverage sampling-based techniques to explore the typical set of the state distribution of a state-space model with an approximate likelihood, rather than optimize for its mode directly. We propose a novel inference-time scaling approach by adapting particle-based Monte Carlo methods to this task. Our empirical evaluation demonstrates that our methods have a 4-16x better scaling rate over our deterministic search counterparts on various challenging mathematical reasoning tasks. Using our approach, we show that Qwen2.5-Math-1.5B-Instruct can surpass GPT-4o accuracy in only 4 rollouts, while Qwen2.5-Math-7B-Instruct scales to o1 level accuracy in only 32 rollouts. Our work not only presents an effective method to inference-time scaling, but also connects the rich literature in probabilistic inference with inference-time scaling of LLMs to develop more robust algorithms in future work. Code and further information is available at https://probabilistic-inference-scaling.github.io.
arxiv情報
著者 | Isha Puri,Shivchander Sudalairaj,Guangxuan Xu,Kai Xu,Akash Srivastava |
発行日 | 2025-02-04 15:39:36+00:00 |
arxivサイト | arxiv_id(pdf) |