要約
検証は、効果的な数学的推論のために重要です。
以前の評価に基づいて検証剤が彼らの判断を繰り返し改善する新しい時間的一貫性方法を提示します。
1ラウンドの検証やマルチモデルの討論がアプローチするのとは異なり、私たちの方法は、検証の精度を改善するために、一連の自己反省的アクションで一貫性を活用します。
多様な数学プロセスエラー識別ベンチマーク(MathCheck、ProcessBench、およびPRM800K)にわたる経験的評価は、ベースライン方法にわたって一貫したパフォーマンスの改善を示しています。
最近のDeepSeek R1蒸留モデルに適用されると、この方法は強力なパフォーマンスを示し、7B/8B蒸留モデルがすべての70B/72BモデルとGPT-4OをProcessBenchで上回ることができます。
特に、この方法を備えた蒸留14Bモデルは、DeepSeek-R1に匹敵するパフォーマンスを実現します。
当社のコードは、https://github.com/jcguo123/tempolal-consintencyで入手できます
要約(オリジナル)
Verification is crucial for effective mathematical reasoning. We present a new temporal consistency method where verifiers iteratively refine their judgments based on the previous assessment. Unlike one-round verification or multi-model debate approaches, our method leverages consistency in a sequence of self-reflection actions to improve verification accuracy. Empirical evaluations across diverse mathematical process error identification benchmarks (Mathcheck, ProcessBench, and PRM800K) show consistent performance improvements over baseline methods. When applied to the recent DeepSeek R1 distilled models, our method demonstrates strong performance, enabling 7B/8B distilled models to outperform all 70B/72B models and GPT-4o on ProcessBench. Notably, the distilled 14B model with our method achieves performance comparable to Deepseek-R1. Our codes are available at https://github.com/jcguo123/Temporal-Consistency
arxiv情報
著者 | Jiacheng Guo,Yue Wu,Jiahao Qiu,Kaixuan Huang,Xinzhe Juan,Ling Yang,Mengdi Wang |
発行日 | 2025-03-18 17:58:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google