MathConstruct: Challenging LLM Reasoning with Constructive Proofs

要約

大規模な言語モデル(LLMS)は数学の印象的なパフォーマンスを示していますが、既存の数学ベンチマークには大きな制限があります。
多くの人が固定された地下真実の回答の問題に焦点を当てており、問題の単純さや推測や暗記の実行可能性のために、しばしば飽和します。
重要なことに、それらは関連する数学の問題の狭いサブセットのみをキャプチャします。
この研究のギャップに対処するために、さまざまな数学競争から供給された126の挑戦的な問題の新しいベンチマークである\ MCを紹介します。これは、特定の特性を持つ数学的オブジェクトの構築を必要とする広く遭遇する問題タイプです。
これらの証明は、ソリューションの正確性を簡単に検証できるため、LLM評価に特に適しています。
また、自動化された検証剤により、MathConstructは堅牢性を評価するために使用される問題のバリエーションを生成できます。
最先端のLLMは、MathConstructの問題の54%のみを解決し、LLM評価の複雑さと重要性を強調しています。

要約(オリジナル)

While Large Language Models (LLMs) demonstrate impressive performance in mathematics, existing math benchmarks come with significant limitations. Many focus on problems with fixed ground-truth answers, and are often saturated due to problem simplicity or the viability of guessing or memorization. Crucially, they capture only a narrow subset of relevant math problems. To address this research gap, we introduce \mc, a new benchmark of 126 challenging problems sourced from various math competitions, which targets constructive proofs, a widely encountered problem type requiring the construction of mathematical objects with specific properties. These proofs are particularly suitable for LLM evaluation, as solution correctness can be easily verified. Our automated verifiers also enable MathConstruct to generate problem variations, used to evaluate robustness. State-of-the-art LLMs solve only 54% of MathConstruct problems, highlighting its complexity and importance for LLM evaluation.

arxiv情報

著者 Mislav Balunović,Jasper Dekoninck,Nikola Jovanović,Ivo Petrov,Martin Vechev
発行日 2025-02-14 14:44:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク