ConceptMath: A Bilingual Concept-wise Benchmark for Measuring Mathematical Reasoning of Large Language Models

要約

このペーパーでは、大規模言語モデル (LLM) の概念に基づいた数学的推論を評価する、バイリンガル (英語と中国語) のきめ細かいベンチマークである ConceptMath を紹介します。
一般的な数学的推論を平均的な精度で評価する従来のベンチマークとは異なり、ConceptMath は数学概念の階層の下に数学の問題を体系的に編成するため、数学的推論を概念ごとの精度でさまざまな粒度で評価できます。
ConcepthMath に基づいて、私たちは広範囲の LLM を評価しており、既存の LLM は、従来のベンチマークでは高い平均精度を達成しているものの、さまざまな数学概念間で大きなパフォーマンスのばらつきを示し、最も基本的なものでは壊滅的な失敗をする可能性さえあることが観察されています。
さらに、既存の LLM の弱点を強化するための効率的な微調整戦略も導入します。
最後に、ConceptMath が開発者をガイドしてモデルのきめ細かい数学的能力を理解し、基礎モデルの成長を促進できることを願っています。

要約(オリジナル)

This paper introduces ConceptMath, a bilingual (English and Chinese), fine-grained benchmark that evaluates concept-wise mathematical reasoning of Large Language Models (LLMs). Unlike traditional benchmarks that evaluate general mathematical reasoning with an average accuracy, ConceptMath systematically organizes math problems under a hierarchy of math concepts, so that mathematical reasoning can be evaluated at different granularity with concept-wise accuracies. Based on our ConcepthMath, we evaluate a broad range of LLMs, and we observe existing LLMs, though achieving high average accuracies on traditional benchmarks, exhibit significant performance variations across different math concepts and may even fail catastrophically on the most basic ones. Besides, we also introduce an efficient fine-tuning strategy to enhance the weaknesses of existing LLMs. Finally, we hope ConceptMath could guide the developers to understand the fine-grained mathematical abilities of their models and facilitate the growth of foundation models.

arxiv情報

著者 Yanan Wu,Jie Liu,Xingyuan Bu,Jiaheng Liu,Zhanhui Zhou,Yuanxing Zhang,Chenchen Zhang,Zhiqi Bai,Haibin Chen,Tiezheng Ge,Wanli Ouyang,Wenbo Su,Bo Zheng
発行日 2024-02-22 16:06:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク