要約
大規模言語モデル (LLM) の数学的推論能力を徹底的に評価するには、さまざまな難易度の多様な数学的概念と数学的問題をカバーする評価データセットを慎重に厳選する必要があります。
この目的を追求するために、この論文では、中国の LLM を評価するためのきめの細かい数学的評価ベンチマーク データセットである FineMath を提案します。
FineMath は、小学校の算数で教えられる主要な数学的概念をカバーするために作成されており、数学の文章問題の 17 カテゴリーにさらに分類されており、LLM の数学的推論能力の詳細な分析が可能です。
数学の文章問題の 17 カテゴリーすべてに、問題を解くために必要な推論ステップの数に応じて、難易度の注釈が手動で付けられます。
私たちは FineMath のさまざまな LLM に対して広範な実験を行った結果、中国の LLM の数学的推論能力の点で改善の余地がまだかなりあることがわかりました。
また、これまで見過ごされていた評価プロセスや評価方法についても徹底的に分析します。
これら 2 つの要素は、モデルの結果とその数学的推論能力の理解に大きく影響します。
データセットは間もなく一般公開される予定です。
要約(オリジナル)
To thoroughly assess the mathematical reasoning abilities of Large Language Models (LLMs), we need to carefully curate evaluation datasets covering diverse mathematical concepts and mathematical problems at different difficulty levels. In pursuit of this objective, we propose FineMath in this paper, a fine-grained mathematical evaluation benchmark dataset for assessing Chinese LLMs. FineMath is created to cover the major key mathematical concepts taught in elementary school math, which are further divided into 17 categories of math word problems, enabling in-depth analysis of mathematical reasoning abilities of LLMs. All the 17 categories of math word problems are manually annotated with their difficulty levels according to the number of reasoning steps required to solve these problems. We conduct extensive experiments on a wide range of LLMs on FineMath and find that there is still considerable room for improvements in terms of mathematical reasoning capability of Chinese LLMs. We also carry out an in-depth analysis on the evaluation process and methods that have been overlooked previously. These two factors significantly influence the model results and our understanding of their mathematical reasoning capabilities. The dataset will be publicly available soon.
arxiv情報
著者 | Yan Liu,Renren Jin,Lin Shi,Zheng Yao,Deyi Xiong |
発行日 | 2024-03-12 15:32:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google