要約
大規模言語モデル (LLM) の最近の進歩により、数学が大幅に改善されました。
ただし、GSM8k のような従来の数学ベンチマークは一次元的な視点を提供しており、LLM の数学機能の総合的な評価を提供するには不十分です。
このギャップに対処するために、大規模な言語モデルの数学的機能を厳密に評価する新しいベンチマークである MathBench を導入します。
MathBench は幅広い数学分野にまたがり、理論的理解と実践的な問題解決スキルの両方を詳細に評価します。
このベンチマークは、基本的な算術から大学数学まで、5 つの異なる段階を経て進行し、さまざまな知識の深さでモデルを評価するように構成されています。
各ステージには理論的な質問と応用問題が含まれており、これによりモデルの数学的習熟度や概念を実際のシナリオに適用する能力を測定できます。
MathBench は、LLM の数学的能力の評価を強化し、バイリンガルの文脈で彼らの知識理解レベルと問題解決スキルの微妙な視点を提供することを目的としています。
プロジェクトは https://github.com/open-compass/MathBench でリリースされています。
要約(オリジナル)
Recent advancements in large language models (LLMs) have showcased significant improvements in mathematics. However, traditional math benchmarks like GSM8k offer a unidimensional perspective, falling short in providing a holistic assessment of the LLMs’ math capabilities. To address this gap, we introduce MathBench, a new benchmark that rigorously assesses the mathematical capabilities of large language models. MathBench spans a wide range of mathematical disciplines, offering a detailed evaluation of both theoretical understanding and practical problem-solving skills. The benchmark progresses through five distinct stages, from basic arithmetic to college mathematics, and is structured to evaluate models at various depths of knowledge. Each stage includes theoretical questions and application problems, allowing us to measure a model’s mathematical proficiency and its ability to apply concepts in practical scenarios. MathBench aims to enhance the evaluation of LLMs’ mathematical abilities, providing a nuanced view of their knowledge understanding levels and problem solving skills in a bilingual context. The project is released at https://github.com/open-compass/MathBench .
arxiv情報
著者 | Hongwei Liu,Zilong Zheng,Yuxuan Qiao,Haodong Duan,Zhiwei Fei,Fengzhe Zhou,Wenwei Zhang,Songyang Zhang,Dahua Lin,Kai Chen |
発行日 | 2024-05-20 17:52:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google