AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models

要約

人間レベルのタスクに取り組むための基礎モデルの一般的な能力を評価することは、汎用人工知能 (AGI) の追求における開発と応用の重要な側面です。
人工的なデータセットに依存する従来のベンチマークは、人間レベルの能力を正確に表していない可能性があります。
このペーパーでは、大学入学試験、法科大学院入学試験、数学コンテスト、弁護士資格試験など、人間中心の標準試験の文脈で基礎モデルを評価するために特別に設計された新しいベンチマークである AGIEval を紹介します。
このベンチマークを使用して、GPT-4、ChatGPT、Text-Davinci-003 などのいくつかの最先端の基盤モデルを評価します。
印象的なことに、GPT-4 は SAT、LSAT、数学コンテストで人間の平均的な成績を上回り、SAT 数学テストでは 95% の正解率、中国の大学入学試験の英語テストでは 92.5% の正解率を達成しました。
これは、現代の基礎モデルの並外れたパフォーマンスを示しています。
対照的に、GPT-4 は、複雑な推論や特定のドメインの知識を必要とするタスクでは熟練度が低いこともわかりました。
モデルの機能 (理解、知識、推論、計算) を包括的に分析することで、これらのモデルの強みと限界が明らかになり、一般的な機能を強化するための将来の方向性についての貴重な洞察が得られます。
人間の認知と意思決定に関連するタスクに集中することにより、私たちのベンチマークは、現実世界のシナリオにおける基礎モデルのパフォーマンスのより有意義で堅牢な評価を提供します。
データ、コード、およびすべてのモデル出力は、https://github.com/ruixiangcui/AGIEval でリリースされます。

要約(オリジナル)

Evaluating the general abilities of foundation models to tackle human-level tasks is a vital aspect of their development and application in the pursuit of Artificial General Intelligence (AGI). Traditional benchmarks, which rely on artificial datasets, may not accurately represent human-level capabilities. In this paper, we introduce AGIEval, a novel benchmark specifically designed to assess foundation model in the context of human-centric standardized exams, such as college entrance exams, law school admission tests, math competitions, and lawyer qualification tests. We evaluate several state-of-the-art foundation models, including GPT-4, ChatGPT, and Text-Davinci-003, using this benchmark. Impressively, GPT-4 surpasses average human performance on SAT, LSAT, and math competitions, attaining a 95% accuracy rate on the SAT Math test and a 92.5% accuracy on the English test of the Chinese national college entrance exam. This demonstrates the extraordinary performance of contemporary foundation models. In contrast, we also find that GPT-4 is less proficient in tasks that require complex reasoning or specific domain knowledge. Our comprehensive analyses of model capabilities (understanding, knowledge, reasoning, and calculation) reveal these models’ strengths and limitations, providing valuable insights into future directions for enhancing their general capabilities. By concentrating on tasks pertinent to human cognition and decision-making, our benchmark delivers a more meaningful and robust evaluation of foundation models’ performance in real-world scenarios. The data, code, and all model outputs are released in https://github.com/ruixiangcui/AGIEval.

arxiv情報

著者 Wanjun Zhong,Ruixiang Cui,Yiduo Guo,Yaobo Liang,Shuai Lu,Yanlin Wang,Amin Saied,Weizhu Chen,Nan Duan
発行日 2023-09-18 14:23:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク