SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines

要約

大規模な言語モデル（LLMS）は、数学、物理学、コンピューターサイエンスなどの主流の学術分野で顕著な習熟度を示しています。
ただし、人間の知識には、既存のベンチマークの範囲をはるかに超える200を超える専門分野が含まれます。
これらの専門分野の多くにおけるLLMの能力は、特に産業、農業、およびサービス指向の分野において、不十分に評価されています。
このギャップに対処するために、285の分野で大学院レベルの知識と推論能力を評価する包括的なベンチマークであるSuperGPQAを提示します。
当社のベンチマークは、LLM応答と専門家のフィードバックの両方に基づいた反復改良により、些細なまたは曖昧な質問を排除するために、新しいヒューマンLLM共同溶融フィルタリングメカニズムを採用しています。
私たちの実験結果は、多様な知識ドメイン全体で現在の最先端のLLMのパフォーマンスを改善するための重要な余地を明らかにしています（たとえば、推論に焦点を当てたモデルDeepSeek-R1は、SuperGPQAで61.82％の最高精度を達成しました）。
現在のモデル機能と人工的な一般情報のギャップ。
さらに、80を超える専門家アノテーターとインタラクティブな人間の共同体系を含む大規模な注釈プロセスの管理から包括的な洞察を提示し、同等の範囲の将来の研究イニシアチブのための貴重な方法論的ガイダンスを提供します。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable proficiency in mainstream academic disciplines such as mathematics, physics, and computer science. However, human knowledge encompasses over 200 specialized disciplines, far exceeding the scope of existing benchmarks. The capabilities of LLMs in many of these specialized fields-particularly in light industry, agriculture, and service-oriented disciplines-remain inadequately evaluated. To address this gap, we present SuperGPQA, a comprehensive benchmark that evaluates graduate-level knowledge and reasoning capabilities across 285 disciplines. Our benchmark employs a novel Human-LLM collaborative filtering mechanism to eliminate trivial or ambiguous questions through iterative refinement based on both LLM responses and expert feedback. Our experimental results reveal significant room for improvement in the performance of current state-of-the-art LLMs across diverse knowledge domains (e.g., the reasoning-focused model DeepSeek-R1 achieved the highest accuracy of 61.82% on SuperGPQA), highlighting the considerable gap between current model capabilities and artificial general intelligence. Additionally, we present comprehensive insights from our management of a large-scale annotation process, involving over 80 expert annotators and an interactive Human-LLM collaborative system, offering valuable methodological guidance for future research initiatives of comparable scope.

arxiv情報

著者	M-A-P Team,Xinrun Du,Yifan Yao,Kaijing Ma,Bingli Wang,Tianyu Zheng,Kang Zhu,Minghao Liu,Yiming Liang,Xiaolong Jin,Zhenlin Wei,Chujie Zheng,Kaixing Deng,Shuyue Guo,Shian Jia,Sichao Jiang,Yiyan Liao,Rui Li,Qinrui Li,Sirun Li,Yizhi Li,Yunwen Li,Dehua Ma,Yuansheng Ni,Haoran Que,Qiyao Wang,Zhoufutu Wen,Siwei Wu,Tianshun Xing,Ming Xu,Zhenzhu Yang,Zekun Moore Wang,Junting Zhou,Yuelin Bai,Xingyuan Bu,Chenglin Cai,Liang Chen,Yifan Chen,Chengtuo Cheng,Tianhao Cheng,Keyi Ding,Siming Huang,Yun Huang,Yaoru Li,Yizhe Li,Zhaoqun Li,Tianhao Liang,Chengdong Lin,Hongquan Lin,Yinghao Ma,Zhongyuan Peng,Zifan Peng,Qige Qi,Shi Qiu,Xingwei Qu,Yizhou Tan,Zili Wang,Chenqing Wang,Hao Wang,Yiya Wang,Yubo Wang,Jiajun Xu,Kexin Yang,Ruibin Yuan,Yuanhao Yue,Tianyang Zhan,Chun Zhang,Jingyang Zhang,Xiyue Zhang,Xingjian Zhang,Yue Zhang,Yongchi Zhao,Xiangyu Zheng,Chenghua Zhong,Yang Gao,Zhoujun Li,Dayiheng Liu,Qian Liu,Tianyu Liu,Shiwen Ni,Junran Peng,Yujia Qin,Wenbo Su,Guoyin Wang,Shi Wang,Jian Yang,Min Yang,Meng Cao,Xiang Yue,Zhaoxiang Zhang,Wangchunshu Zhou,Jiaheng Liu,Qunshu Lin,Wenhao Huang,Ge Zhang
発行日	2025-02-20 17:05:58+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー