要約
数学的推論能力の評価は、汎用人工知能 (AGI) の進歩に不可欠です。
大規模言語モデル (LLM) は数学的問題の解決において優れたパフォーマンスを示していますが、GSM8K や MATH などの既存のベンチマークには、特定の数値による狭い問題定義や、推論と適応性の正確な評価を妨げる所定のルールへの依存などの制限があります。
このペーパーでは、広範な単体テストを通じてモデルを堅牢に評価する UTMath ベンチマークを紹介します。
これは、9 つの数学的ドメインにわたる 1,053 の問題で構成され、問題ごとに 68 以上のテスト ケースがあります。ソフトウェア開発における単体テストからインスピレーションを得た、結果の精度と信頼性の両方に焦点を当てた革新的な評価フレームワークを提案します。
さらに、コードを生成する前に LLM が明示的な推論を実行することを奨励する、Reasoning-to-Coding of Thoughts (RCoT) アプローチを導入します。これにより、より高度なソリューションの生成とパフォーマンスの向上につながります。
さらに、コミュニティによる数学的推論のさらなる探究をサポートするために、UTMath ベンチマークだけでなく UTMath-Train トレーニング データセット (70,000 サンプル以上) もリリースしています。
要約(オリジナル)
The evaluation of mathematical reasoning capabilities is essential for advancing Artificial General Intelligence (AGI). While Large Language Models (LLMs) have shown impressive performance in solving mathematical problems, existing benchmarks such as GSM8K and MATH present limitations, including narrow problem definitions with specific numbers and reliance on predetermined rules that hinder accurate assessments of reasoning and adaptability. This paper introduces the UTMath Benchmark, which robustly evaluates the models through extensive unit tests. It consists of 1,053 problems across 9 mathematical domains, with over 68 test cases per problem.We propose an innovative evaluation framework inspired by unit testing in software development, focusing on both accuracy and reliability of results. Furthermore, we introduce the Reasoning-to-Coding of Thoughts (RCoT) approach, which encourages LLMs to perform explicit reasoning before generating code, leading to generating more advanced solution and improved performance. Furthermore, we are releasing not only the UTMath benchmark but also the UTMath-Train training dataset (more than 70k samples), to support the community in further exploring mathematical reasoning.
arxiv情報
著者 | Bo Yang,Qingping Yang,Runtao Liu |
発行日 | 2024-11-11 18:59:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google