要約
大規模な言語モデル(LLM)は、数学的推論に大きな進歩を遂げ、能力の包括的かつ公正な評価の必要性を強調しています。
ただし、既存のベンチマークはしばしば不足しており、学部レベルの数学的問題の広範な報道がないか、おそらくテストセットの汚染に苦しんでいます。
これらの問題に対処するために、LLMを使用して学部レベルの数学的推論を評価するために特別に設計された多様で動的なベンチマークであるUgmathbenchを紹介します。
Ugmathbenchは、16の被験者にわたる5,062の問題と111のトピックで構成されており、10の異なる回答タイプを備えています。
各問題には3つのランダム化バージョンが含まれており、リーディングオープンソースLLMがugmathbenchで飽和状態になるため、リリース用に追加のバージョンがリリースされます。
さらに、3つのバージョンすべてにわたって正しく解かれた問題の割合を測定する効果的な精度(EACC)と、推論ギャップ($ \ delta $)の2つの重要なメトリックを提案します。
すべてのバージョンとEACC。
23の主要なLLMSの広範な評価により、達成された最高のEACCはOpenai-O1-Miniによる56.3%であり、異なるモデルで大きな$ \ delta $の値が観察されていることが明らかになりました。
これは、高EACCと$ \ delta = 0 $で「大規模な推論モデル」を開発することを目的とした将来の研究の必要性を強調しています。
Ugmathbenchのリリースは、その詳細な評価コードとともに、数学的問題を解決する際にLLMの開発を進めるための貴重なリソースとして役立つと予想しています。
要約(オリジナル)
Large Language Models (LLMs) have made significant strides in mathematical reasoning, underscoring the need for a comprehensive and fair evaluation of their capabilities. However, existing benchmarks often fall short, either lacking extensive coverage of undergraduate-level mathematical problems or probably suffering from test-set contamination. To address these issues, we introduce UGMathBench, a diverse and dynamic benchmark specifically designed for evaluating undergraduate-level mathematical reasoning with LLMs. UGMathBench comprises 5,062 problems across 16 subjects and 111 topics, featuring 10 distinct answer types. Each problem includes three randomized versions, with additional versions planned for release as leading open-source LLMs become saturated in UGMathBench. Furthermore, we propose two key metrics: effective accuracy (EAcc), which measures the percentage of correctly solved problems across all three versions, and reasoning gap ($\Delta$), which assesses reasoning robustness by calculating the difference between the average accuracy across all versions and EAcc. Our extensive evaluation of 23 leading LLMs reveals that the highest EAcc achieved is 56.3\% by OpenAI-o1-mini, with large $\Delta$ values observed across different models. This highlights the need for future research aimed at developing ‘large reasoning models’ with high EAcc and $\Delta = 0$. We anticipate that the release of UGMathBench, along with its detailed evaluation codes, will serve as a valuable resource to advance the development of LLMs in solving mathematical problems.
arxiv情報
著者 | Xin Xu,Jiaxin Zhang,Tianhao Chen,Zitong Chao,Jishan Hu,Can Yang |
発行日 | 2025-01-23 15:46:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google