Heimdall: test-time scaling on the generative verification

要約

AIシステムは、知識自体を確認できる範囲でのみ、知識を作成および維持できます。
長い考え方の推論に関する最近の研究は、競争上の問題を解決するためのLLMの大きな可能性を実証していますが、その検証能力は弱く、十分に調査されていないことを示しています。
この論文では、ソリューションの正確性を正確に判断できる長いCOT検証LLMであるHeimdallを提案します。
純粋な強化学習により、競争力のある数学の問題で検証精度を62.5%から94.5%に増やします。
サンプリングを繰り返してスケーリングすることにより、精度はさらに97.5%に増加します。
Heimdallは、人間の評価を通じて、印象的な一般化能力を実証し、挑戦的な数学の証明のほとんどの問題をうまく検出します。トレーニング中には含まれていません。
さらに、Heimdallの機能を拡張して問題解決を拡大するために、悲観的な検証を提案します。
ソルバーモデルからソリューションを判断し、悲観的な原理に基づいて、Heimdallを呼び出して、不確実性が最も少ない最も可能性の高いソリューションを選択します。
DeepSeek-R1-Distill-Qwen-32Bをソルバーモデルとして採用すると、悲観的な検証により、AIME2025のソリューションの精度が54.2%から70.0%に16倍の計算予算で、より多くの計算予算で83.3%になります。
Solver Gemini 2.5 Proが強いと、スコアは93.0%に達します。
最後に、自動知識発見システムをプロトタイプ化します。これは、質問を提起する三元システムであり、別の人がソリューションを提供し、3番目のシステムがソリューションを検証します。
最初の2つのコンポーネントにデータ合成作業nuniNamathを使用すると、Heimdallはデータセット内の問題のあるレコードを効果的に識別し、データのほぼ半分が欠陥があることを明らかにします。

要約(オリジナル)

An AI system can create and maintain knowledge only to the extent that it can verify that knowledge itself. Recent work on long Chain-of-Thought reasoning has demonstrated great potential of LLMs on solving competitive problems, but their verification ability remains to be weak and not sufficiently investigated. In this paper, we propose Heimdall, the long CoT verification LLM that can accurately judge the correctness of solutions. With pure reinforcement learning, we boost the verification accuracy from 62.5% to 94.5% on competitive math problems. By scaling with repeated sampling, the accuracy further increases to 97.5%. Through human evaluation, Heimdall demonstrates impressive generalization capabilities, successfully detecting most issues in challenging math proofs, the type of which is not included during training. Furthermore, we propose Pessimistic Verification to extend the functionality of Heimdall to scaling up the problem solving. It calls Heimdall to judge the solutions from a solver model and based on the pessimistic principle, selects the most likely correct solution with the least uncertainty. Taking DeepSeek-R1-Distill-Qwen-32B as the solver model, Pessimistic Verification improves the solution accuracy on AIME2025 from 54.2% to 70.0% with 16x compute budget and to 83.3% with more compute budget. With the stronger solver Gemini 2.5 Pro, the score reaches 93.0%. Finally, we prototype an automatic knowledge discovery system, a ternary system where one poses questions, another provides solutions, and the third verifies the solutions. Using the data synthesis work NuminaMath for the first two components, Heimdall effectively identifies problematic records within the dataset and reveals that nearly half of the data is flawed, which interestingly aligns with the recent ablation studies from NuminaMath.

arxiv情報

著者 Wenlei Shi,Xing Jin
発行日 2025-04-14 15:46:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, I.2.7 パーマリンク