Sample, Scrutinize and Scale: Effective Inference-Time Search by Scaling Verification

要約

サンプリングベースの検索は、テスト時間計算を利用するための単純なパラダイムであり、複数の候補応答を生成し、最適な応答を選択することを伴います。通常、モデルに各応答を正確性のために自己検証させることにより。
この論文では、サンプリングベースの検索を管理するスケーリングトレンドを研究します。
私たちの調査結果の中には、ランダムサンプリングと直接的な自己検証のみを使用して、サンプリングベースの検索のミニマリストの実装を単純にスケールアップするだけで、たとえば、Gemini V1.5 Proの推論能力を高める実用的な推論方法を提供することが提供されます。
人気のあるベンチマーク上のO1-PREVIEW。
サンプリングベースの検索のスケーラビリティを暗黙のスケーリングの現象に部分的に帰属させ、より大きな応答のプールをサンプリングすると、自己検証の精度が向上します。
さらに、テスト時間計算で自己検証機能を改善するための2つの有用な原則を特定します。(1)応答全体を比較すると、エラーと幻覚の位置に関する有用なシグナルを提供し、(2)異なるモデル出力スタイルが異なるコンテキストに役立ちます –
思考の鎖は推論に役立ちますが、検証するのが難しいです。
また、正確な検証を引き出すことができますが、フロンティアモデルは非常に弱いボックス外の検証機能を示し、これらの欠陥の進捗を測定するためのベンチマークを導入することがわかります。

要約(オリジナル)

Sampling-based search, a simple paradigm for utilizing test-time compute, involves generating multiple candidate responses and selecting the best one — typically by having models self-verify each response for correctness. In this paper, we study the scaling trends governing sampling-based search. Among our findings is that simply scaling up a minimalist implementation of sampling-based search, using only random sampling and direct self-verification, provides a practical inference method that, for example, elevates the reasoning capabilities of Gemini v1.5 Pro above that of o1-Preview on popular benchmarks. We partially attribute the scalability of sampling-based search to a phenomenon of implicit scaling, where sampling a larger pool of responses in turn improves self-verification accuracy. We further identify two useful principles for improving self-verification capabilities with test-time compute: (1) comparing across responses provides helpful signals about the locations of errors and hallucinations, and (2) different model output styles are useful for different contexts — chains of thought are useful for reasoning but harder to verify. We also find that, though accurate verification can be elicited, frontier models demonstrate remarkably weak out-of-box verification capabilities and introduce a benchmark to measure progress on these deficiencies.

arxiv情報

著者 Eric Zhao,Pranjal Awasthi,Sreenivas Gollapudi
発行日 2025-02-20 18:52:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク