CMATH: Can Your Language Model Pass Chinese Elementary School Math Test?

要約

私たちは、実際の中国語の問題集と試験からのソースであり、詳細な注釈が付いた 1.7k の小学校レベルの算数文章問題で構成される、中国語の小学校数学文章題 (CMATH) データセットを紹介します。
このデータセットは、次の質問を評価するためのベンチマーク ツールを提供することを目的としています。人気のある大規模言語モデル (LLM) の能力は、小学校の算数の何年生レベルに対応していますか?
商用オプションとオープンソース オプションの両方を含む、さまざまな人気のある LLM を評価したところ、小学校 6 学年すべてで GPT-4 だけが成功 (精度 $\geq$ 60\%) を達成し、他のモデルは学年が異なると低迷することがわかりました。
レベル。
さらに、CMATH データセット内の元の問題を気が散る情報で強化することにより、いくつかの最高パフォーマンスの LLM の堅牢性を評価します。
私たちの調査結果では、他のモデルが失敗する一方で、GPT-4 は堅牢性を維持できることが明らかになりました。
私たちは、私たちの研究によってLLMの算術能力と推論能力の限界が明らかになり、彼らの継続的な開発と進歩が促進されることを期待しています。

要約(オリジナル)

We present the Chinese Elementary School Math Word Problems (CMATH) dataset, comprising 1.7k elementary school-level math word problems with detailed annotations, source from actual Chinese workbooks and exams. This dataset aims to provide a benchmark tool for assessing the following question: to what grade level of elementary school math do the abilities of popular large language models (LLMs) correspond? We evaluate a variety of popular LLMs, including both commercial and open-source options, and discover that only GPT-4 achieves success (accuracy $\geq$ 60\%) across all six elementary school grades, while other models falter at different grade levels. Furthermore, we assess the robustness of several top-performing LLMs by augmenting the original problems in the CMATH dataset with distracting information. Our findings reveal that GPT-4 is able to maintains robustness, while other model fail. We anticipate that our study will expose limitations in LLMs’ arithmetic and reasoning capabilities, and promote their ongoing development and advancement.

arxiv情報

著者 Tianwen Wei,Jian Luan,Wei Liu,Shuang Dong,Bin Wang
発行日 2023-06-29 02:19:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク