Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models

要約

近年、大規模な推論モデルの急速な発展により、数学的推論を評価するための既存のベンチマークが飽和し、より挑戦的で厳密な評価フレームワークの緊急の必要性を強調しています。
このギャップに対処するために、LLMSの複雑な推論能力を厳密にテストするように設計された、オリンピアードレベルの新しい数学ベンチマークであるOlymmathを紹介します。
Olymmathは、細心の注意を払ってキュレーションされた200個の問題を特徴としており、それぞれが手動で検証され、並行して英語と中国語のバージョンで利用可能です。
問題は、2つの異なる難易度層に体系的に編成されています。(1)数学的推論評価のベースラインを確立するAIMEレベルの問題(簡単)、および(2)現在の最先端モデルの境界を押し上げるように設計された大幅に挑戦的な問題(ハード)。
ベンチマークでは、これらの問題は、客観的でルールベースの評価を可能にする検証可能な数値ソリューションを含む4つのコア数学フィールドに及びます。
経験的な結果は、Olymmathが提示する重要な課題を強調しており、Deepseek-R1やOpenaiのO3-Miniを含む最先端のモデルがハードサブセットで特に限定的な精度を示しています。
さらに、このベンチマークは、数学的推論能力の包括的なバイリンガル評価を促進します。これは、主流の数学的推論ベンチマークではほとんど告訴されていない重要な側面です。
Still Project:https://github.com/rucaibox/slow_thinking_with_llmsでOlymmathベンチマークをリリースします。

要約(オリジナル)

In recent years, the rapid development of large reasoning models has resulted in the saturation of existing benchmarks for evaluating mathematical reasoning, highlighting the urgent need for more challenging and rigorous evaluation frameworks. To address this gap, we introduce OlymMATH, a novel Olympiad-level mathematical benchmark, designed to rigorously test the complex reasoning capabilities of LLMs. OlymMATH features 200 meticulously curated problems, each manually verified and available in parallel English and Chinese versions. The problems are systematically organized into two distinct difficulty tiers: (1) AIME-level problems (easy) that establish a baseline for mathematical reasoning assessment, and (2) significantly more challenging problems (hard) designed to push the boundaries of current state-of-the-art models. In our benchmark, these problems span four core mathematical fields, each including a verifiable numerical solution to enable objective, rule-based evaluation. Empirical results underscore the significant challenge presented by OlymMATH, with state-of-the-art models including DeepSeek-R1 and OpenAI’s o3-mini demonstrating notably limited accuracy on the hard subset. Furthermore, the benchmark facilitates comprehensive bilingual assessment of mathematical reasoning abilities-a critical dimension that remains largely unaddressed in mainstream mathematical reasoning benchmarks. We release the OlymMATH benchmark at the STILL project: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.

arxiv情報

著者 Haoxiang Sun,Yingqian Min,Zhipeng Chen,Wayne Xin Zhao,Zheng Liu,Zhongyuan Wang,Lei Fang,Ji-Rong Wen
発行日 2025-03-27 11:20:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク