要約
大規模言語モデル (LLM) の急速な開発に合わせて、新しい NLP ベンチマークが緊急に必要とされています。
C-Eval は、中国語のコンテキストで基礎モデルの高度な知識と推論能力を評価するために設計された初の包括的な中国語評価スイートです。
C-Eval は、中学、高校、大学、プロフェッショナルの 4 つの難易度にわたる多肢選択問題で構成されています。
質問は人文科学から科学、工学に至るまで、52 の多様な分野にわたっています。
C-Eval には、C-Eval Hard が付属しています。これは、C-Eval の非常に難しい主題のサブセットであり、解決するには高度な推論能力が必要です。
私たちは、英語向けモデルと中国語向けモデルの両方を含む、C-Eval 上の最先端の LLM の包括的な評価を実施します。
結果は、GPT-4 だけが 60% を超える平均精度を達成できたことを示しており、現在の LLM にはまだ大きな改善の余地があることを示唆しています。
C-Eval が基盤モデルの重要な長所と欠点を分析し、中国ユーザー向けの開発と成長を促進するのに役立つと期待しています。
要約(オリジナル)
New NLP benchmarks are urgently needed to align with the rapid development of large language models (LLMs). We present C-Eval, the first comprehensive Chinese evaluation suite designed to assess advanced knowledge and reasoning abilities of foundation models in a Chinese context. C-Eval comprises multiple-choice questions across four difficulty levels: middle school, high school, college, and professional. The questions span 52 diverse disciplines, ranging from humanities to science and engineering. C-Eval is accompanied by C-Eval Hard, a subset of very challenging subjects in C-Eval that requires advanced reasoning abilities to solve. We conduct a comprehensive evaluation of the most advanced LLMs on C-Eval, including both English- and Chinese-oriented models. Results indicate that only GPT-4 could achieve an average accuracy of over 60%, suggesting that there is still significant room for improvement for current LLMs. We anticipate C-Eval will help analyze important strengths and shortcomings of foundation models, and foster their development and growth for Chinese users.
arxiv情報
著者 | Yuzhen Huang,Yuzhuo Bai,Zhihao Zhu,Junlei Zhang,Jinghan Zhang,Tangjun Su,Junteng Liu,Chuancheng Lv,Yikai Zhang,Jiayi Lei,Yao Fu,Maosong Sun,Junxian He |
発行日 | 2023-11-06 13:24:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google