要約
コード検証は最近、コーディングのための大規模な推論モデルをトレーニングする上で重要な要素として大きな成功を収めています。
自己生成されたテストケースや報酬モデルなどの合成技術は、事前定義されたテストを超えてコード機能を強化する方法を提供します。
これらの進歩に基づいて、ソリューションの正確性の評価に対する合成検証方法の影響を体系的に評価するように設計された新しいベンチマークを提案します。
HE-R、HE-R+、MBPP-R、およびMBPP-R+を紹介します。これは、既存のコーディングベンチマークをスコアリングおよびランキングデータセットに変換して、合成検証剤の有効性を評価します。
これらのベンチマークを使用して、標準、推論ベース、および報酬ベースのLLMの合成検証方法を分析します。
私たちの結果は、最近の推論モデルがテストケースの生成を大幅に改善し、テストケースのスケーリングが検証の精度を高めることを示しています。
要約(オリジナル)
Code verification has recently found great success as a critical component in training large scale reasoning models for coding. Synthetic techniques such as self-generated test cases and reward models provide a way to enhance code capabilities beyond predefined tests. Building on these advancements, we propose new benchmarks designed to systematically evaluate the impact of synthetic verification methods on assessing solution correctness. We introduce HE-R, HE-R+, MBPP-R, and MBPP-R+, which transform existing coding benchmarks into scoring and ranking datasets to evaluate the effectiveness of synthetic verifiers. Using these benchmarks, we analyze synthetic verification methods in standard, reasoning-based, and reward-based LLMs. Our results show that recent reasoning models significantly improve test case generation and that scaling test cases enhances verification accuracy.
arxiv情報
著者 | Aleksander Ficek,Somshubra Majumdar,Vahid Noroozi,Boris Ginsburg |
発行日 | 2025-02-19 15:32:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google