要約
大規模な言語モデル(LLM)のテスト時間計算のために証明可能なスケーリング法則を享受する、2つのシンプルで原則的で実用的なアルゴリズムを提案します。
最初のものは2段階のノックアウトスタイルのアルゴリズムです。入力の問題があると、最初に複数の候補ソリューションを生成し、次に最終出力のためにノックアウトトーナメントを介してそれらを集計します。
LLMが非ゼロの確率で正しいソリューションを生成し、正しいソリューションのペアを比較する際にランダムな推測よりも優れていると仮定すると、このアルゴリズムの故障確率が指数関数的にゼロになるか、テスト時間の栽培としてのパワー法則(特定のスケーリングの方法に依存する)によって崩壊することを理論的に証明します。
2つ目は2段階のリーグスタイルのアルゴリズムで、各候補者は、単一の対戦相手に敗北すると排除されるのではなく、複数の対戦相手に対する平均勝利率によって評価されます。
類似しているがより堅牢な仮定の下で、その故障確率も、より多くのテスト時間計算で指数関数的にゼロに崩壊することを証明します。
両方のアルゴリズムには、最小限の実装のためにブラックボックスLLMが必要であり、それ以外は何も必要ありません(例えば、検証者または報酬モデルはありません)。
多様なモデルとデータセットを使用した広範な実験を通じて、提案された理論を検証し、両方のアルゴリズムの優れたスケーリング特性を実証します。
要約(オリジナル)
We propose two simple, principled and practical algorithms that enjoy provable scaling laws for the test-time compute of large language models (LLMs). The first one is a two-stage knockout-style algorithm: given an input problem, it first generates multiple candidate solutions, and then aggregate them via a knockout tournament for the final output. Assuming that the LLM can generate a correct solution with non-zero probability and do better than a random guess in comparing a pair of correct and incorrect solutions, we prove theoretically that the failure probability of this algorithm decays to zero exponentially or by a power law (depending on the specific way of scaling) as its test-time compute grows. The second one is a two-stage league-style algorithm, where each candidate is evaluated by its average win rate against multiple opponents, rather than eliminated upon loss to a single opponent. Under analogous but more robust assumptions, we prove that its failure probability also decays to zero exponentially with more test-time compute. Both algorithms require a black-box LLM and nothing else (e.g., no verifier or reward model) for a minimalistic implementation, which makes them appealing for practical applications and easy to adapt for different tasks. Through extensive experiments with diverse models and datasets, we validate the proposed theories and demonstrate the outstanding scaling properties of both algorithms.
arxiv情報
著者 | Yanxi Chen,Xuchen Pan,Yaliang Li,Bolin Ding,Jingren Zhou |
発行日 | 2025-05-15 14:06:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google