AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models

要約

【タイトル】AGIEval:基盤モデルを評価するための人間中心のベンチマーク

【要約】

– 基盤モデルが人間レベルのタスクに対処する一般的な能力を評価することは、人工知能(AGI)の追求における彼らの開発と適用の重要な側面である。
– 人工的なデータセットに依存する従来のベンチマークは、人間レベルの能力を正確に表現できない場合がある。
– この論文では、大学入試試験、法科大学院入試試験、数学競技大会、そして弁護士資格試験など、人間中心の標準化試験の文脈で基盤モデルを評価するために特別に設計された新しいベンチマーク「AGIEval」を紹介する。
– このベンチマークを使用して、GPT-4、ChatGPT、およびText-Davinci-003などの最新の基盤モデルを評価する。印象的にも、GPT-4はSAT、LSAT、および数学競技大会で平均的な人間のパフォーマンスを上回り、SAT数学テストで95%の精度率、中国の国家大学入学試験の英語テストで92.5%の精度率を達成している。これは、現代の基盤モデルの驚異的なパフォーマンスを示している。
– 一方で、複雑な推論や特定のドメイン知識が必要なタスクに関しては、GPT-4はあまり熟練していないことがわかった。
– モデルの能力(理解、知識、推論、および計算)の包括的な分析により、これらのモデルの強みと限界が明らかになり、将来の方向性に関する貴重な示唆が得られる。
– 人間の認知と意思決定に関連するタスクに集中することにより、当社のベンチマークは、現実世界のシナリオにおける基盤モデルのパフォーマンスをより意味のあるものにし、より堅牢な評価を提供する。
– データ、コード、およびすべてのモデル出力は、https://github.com/microsoft/AGIEvalでリリースされている。

要約(オリジナル)

Evaluating the general abilities of foundation models to tackle human-level tasks is a vital aspect of their development and application in the pursuit of Artificial General Intelligence (AGI). Traditional benchmarks, which rely on artificial datasets, may not accurately represent human-level capabilities. In this paper, we introduce AGIEval, a novel benchmark specifically designed to assess foundation model in the context of human-centric standardized exams, such as college entrance exams, law school admission tests, math competitions, and lawyer qualification tests. We evaluate several state-of-the-art foundation models, including GPT-4, ChatGPT, and Text-Davinci-003, using this benchmark. Impressively, GPT-4 surpasses average human performance on SAT, LSAT, and math competitions, attaining a 95% accuracy rate on the SAT Math test and a 92.5% accuracy on the English test of the Chinese national college entrance exam. This demonstrates the extraordinary performance of contemporary foundation models. In contrast, we also find that GPT-4 is less proficient in tasks that require complex reasoning or specific domain knowledge. Our comprehensive analyses of model capabilities (understanding, knowledge, reasoning, and calculation) reveal these models’ strengths and limitations, providing valuable insights into future directions for enhancing their general capabilities. By concentrating on tasks pertinent to human cognition and decision-making, our benchmark delivers a more meaningful and robust evaluation of foundation models’ performance in real-world scenarios. The data, code, and all model outputs are released in https://github.com/microsoft/AGIEval.

arxiv情報

著者 Wanjun Zhong,Ruixiang Cui,Yiduo Guo,Yaobo Liang,Shuai Lu,Yanlin Wang,Amin Saied,Weizhu Chen,Nan Duan
発行日 2023-04-13 09:39:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク