UTMath: Math Evaluation with Unit Test via Reasoning-to-Coding Thoughts

要約

数学的推論能力の評価は、汎用人工知能 (AGI) の進歩に不可欠です。
大規模言語モデル (LLM) は数学的問題の解決において優れたパフォーマンスを示していますが、GSM8K や MATH などの既存のベンチマークには、特定の数値による狭い問題定義や、推論と一般性の正確な評価を妨げる事前定義されたルールへの依存などの制限があります。
このペーパーでは、モデル応答の精度と一般性の両方に焦点を当て、広範な単体テストを通じて LLM を評価するように設計された堅牢な評価フレームワークである UTMath Benchmark を紹介します。
9 つの数学領域にまたがる 1,053 の最先端の問題で構成されており、問題ごとに平均 68 のテスト ケースがあります。
UTMath は非常に難しく、最もパフォーマンスの高いモデルである o1-mini は問題の 32.57\% しか解決せず、次に o1-preview が 27.16\%、GPT-4o が 26.93\% でした。
さらに、コード生成の前に LLM が明示的な推論に取り組むことを奨励する、Reasoning-to-Coding of Thoughts (RCoT) アプローチを紹介します。これにより、より洗練されたソリューションの作成が促進され、全体的なパフォーマンスと効率が向上します。
さらに、コミュニティによる数学的推論のさらなる探究をサポートするために、UTMath-Train トレーニング データセット (70,000 サンプル以上) もリリースしています。
私たちのベンチマークには、次のリンクからアクセスできます: https://github.com/UTMathGroup/UTMath

要約(オリジナル)

The evaluation of mathematical reasoning capabilities is essential for advancing Artificial General Intelligence (AGI). While Large Language Models (LLMs) have shown impressive performance in solving mathematical problems, existing benchmarks such as GSM8K and MATH present limitations, including narrow problem definitions with specific numbers and reliance on predetermined rules that hinder accurate assessments of reasoning and generality. This paper introduces the UTMath Benchmark, a robust evaluation framework designed to assess LLMs through extensive unit tests, with a focus on both the accuracy and generality of model responses. It comprises 1,053 cutting-edge problems spanning nine mathematical domains, with an average of 68 test cases per problem. UTMath is highly challenging, with the best-performing model, o1-mini, solving only 32.57\% of the problems, followed by o1-preview at 27.16\%, and GPT-4o at 26.93\%. Furthermore, we present the Reasoning-to-Coding of Thoughts (RCoT) approach, which encourages LLMs to engage in explicit reasoning prior to code generation, thereby facilitating the production of more sophisticated solutions and enhancing overall performance and efficiency. Additionally, we also release the UTMath-Train training dataset (more than 70k samples), to support the community in further exploring mathematical reasoning. Our benchmark can be accessed via the following link: https://github.com/UTMathGroup/UTMath

arxiv情報

著者 Bo Yang,Qingping Yang,Yingwei Ma,Runtao Liu
発行日 2025-01-14 07:57:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク