要約
私たちは、実際の中国語の問題集と試験からのソースであり、詳細な注釈が付いた 1.7k の小学校レベルの算数文章問題で構成される、中国語の小学校数学文章題 (CMATH) データセットを紹介します。
このデータセットは、次の質問を評価するためのベンチマーク ツールを提供することを目的としています。人気のある大規模言語モデル (LLM) の能力は、小学校の算数の何年生レベルに対応していますか?
商用オプションとオープンソース オプションの両方を含む、さまざまな人気のある LLM を評価したところ、小学校 6 学年すべてで GPT-4 だけが成功 (精度 $\geq$ 60\%) を達成し、他のモデルは学年が異なると低迷することがわかりました。
レベル。
さらに、CMATH データセット内の元の問題を気が散る情報で強化することにより、いくつかの最高パフォーマンスの LLM の堅牢性を評価します。
私たちの調査結果では、他のモデルが失敗する一方で、GPT-4 は堅牢性を維持できることが明らかになりました。
私たちは、私たちの研究によってLLMの算術能力と推論能力の限界が明らかになり、彼らの継続的な開発と進歩が促進されることを期待しています。
要約(オリジナル)
We present the Chinese Elementary School Math Word Problems (CMATH) dataset, comprising 1.7k elementary school-level math word problems with detailed annotations, source from actual Chinese workbooks and exams. This dataset aims to provide a benchmark tool for assessing the following question: to what grade level of elementary school math do the abilities of popular large language models (LLMs) correspond? We evaluate a variety of popular LLMs, including both commercial and open-source options, and discover that only GPT-4 achieves success (accuracy $\geq$ 60\%) across all six elementary school grades, while other models falter at different grade levels. Furthermore, we assess the robustness of several top-performing LLMs by augmenting the original problems in the CMATH dataset with distracting information. Our findings reveal that GPT-4 is able to maintains robustness, while other model fail. We anticipate that our study will expose limitations in LLMs’ arithmetic and reasoning capabilities, and promote their ongoing development and advancement.
arxiv情報
| 著者 | Tianwen Wei,Jian Luan,Wei Liu,Shuang Dong,Bin Wang |
| 発行日 | 2023-06-29 02:19:50+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google