要約
中国語モデルの数学的推論能力を評価するための新しいベンチマーク データセットである SuperCLUE-Math6(SC-Math6) を紹介します。
SC-Math6 は、難易度、多様性、適用範囲が強化された GSM8K データセットのアップグレードされた中国語バージョンとして設計されています。
これは、複数ステップの推論を必要とし、自然言語による解決策を提供する 2,000 を超える数学的文章問題で構成されています。
我々は、異なる推論ステップによる問題に対するパフォーマンスに基づいて大規模モデルの推論能力を定量化する革新的なスキームを提案します。
12 の代表的な中国モデルの実験では、GPT-4 のような上位モデルが優れたパフォーマンスを示し、推論レベルの明確な階層化が実証されました。
SC-Math6 は、中国語の数学的推論ベンチマークのギャップを埋め、中国語モデルの知能を向上させるための包括的なテストベッドを提供します。
要約(オリジナル)
We introduce SuperCLUE-Math6(SC-Math6), a new benchmark dataset to evaluate the mathematical reasoning abilities of Chinese language models. SC-Math6 is designed as an upgraded Chinese version of the GSM8K dataset with enhanced difficulty, diversity, and application scope. It consists of over 2000 mathematical word problems requiring multi-step reasoning and providing natural language solutions. We propose an innovative scheme to quantify the reasoning capability of large models based on performance over problems with different reasoning steps. Experiments on 12 representative Chinese models demonstrate a clear stratification of reasoning levels, with top models like GPT-4 showing superior performance. SC-Math6 fills the gap in Chinese mathematical reasoning benchmarks and provides a comprehensive testbed to advance the intelligence of Chinese language models.
arxiv情報
著者 | Liang Xu,Hang Xue,Lei Zhu,Kangkang Zhao |
発行日 | 2024-01-22 10:30:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google