要約
大規模な言語モデル(LLM)の数学的問題解決能力を改善するためのテスト時間計算検索戦略の急速な進歩により、堅牢な検証剤を構築する必要性がますます重要になっています。
ただし、これらすべての推論戦略は、元々Best-of-n検索用に設計された既存の検証剤に依存しているため、テスト時にツリー検索技術に最適になります。
ツリー検索中、既存の検証剤は、部分的な解または価値の低い前向き中間ステップの間接的かつ暗黙的な評価のみを提供することができ、それにより有望な中間ステップの早期剪定をもたらすことができます。
これらの制限を克服するために、トークンスーパーバイズバリューモデル(TVMS)を提案します。これは、各トークンに正しい最終回答に到達する可能性を反映する確率を割り当てる新しいクラスの検証剤です。
この新しいトークンレベルの監督により、TVMは部分的なソリューションを直接かつ明示的に評価し、テスト時にツリー検索中に有望で誤った中間ステップを効果的に区別できます。
実験結果は、ツリーサーチベースの推論戦略をTVMと組み合わせることで、数学的な問題解決タスクにおけるLLMの精度が大幅に向上し、既存の検証剤のパフォーマンスを超えることを示しています。
要約(オリジナル)
With the rapid advancement of test-time compute search strategies to improve the mathematical problem-solving capabilities of large language models (LLMs), the need for building robust verifiers has become increasingly important. However, all these inference strategies rely on existing verifiers originally designed for Best-of-N search, which makes them sub-optimal for tree search techniques at test time. During tree search, existing verifiers can only offer indirect and implicit assessments of partial solutions or under-value prospective intermediate steps, thus resulting in the premature pruning of promising intermediate steps. To overcome these limitations, we propose token-supervised value models (TVMs) – a new class of verifiers that assign each token a probability that reflects the likelihood of reaching the correct final answer. This new token-level supervision enables TVMs to directly and explicitly evaluate partial solutions, effectively distinguishing between promising and incorrect intermediate steps during tree search at test time. Experimental results demonstrate that combining tree-search-based inference strategies with TVMs significantly improves the accuracy of LLMs in mathematical problem-solving tasks, surpassing the performance of existing verifiers.
arxiv情報
著者 | Jung Hyun Lee,June Yong Yang,Byeongho Heo,Dongyoon Han,Kyungsu Kim,Eunho Yang,Kang Min Yoo |
発行日 | 2025-03-10 14:24:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google