要約
大規模言語モデル (LLM) の機能が進化し続けるにつれて、そのパフォーマンスの評価はますます重要かつ困難になっています。
このペーパーは、自然科学、社会科学、工学、人文科学を含むさまざまな主題をカバーする中国の包括的なベンチマークである CMMLU を紹介することで、このギャップを埋めることを目的としています。
私たちは 18 の先進的な多言語および中国語指向の LLM を徹底的に評価し、さまざまな主題や設定にわたるパフォーマンスを評価します。
その結果、ほとんどの既存の LLM は、コンテキスト内の例や思考連鎖のプロンプトが提供された場合でも、平均精度 50% を達成するのに苦労しているのに対し、ランダムなベースラインは 25% であることが明らかになりました。
これは、LLM に大きな改善の余地があることを浮き彫りにしています。
さらに、モデルのパフォーマンスに影響を与える要因を特定するために広範な実験を実施し、LLM を強化する方向性を提案します。
CMMLU は、中国語のコンテキスト内で大規模な言語モデルの知識と推論能力を評価する際のギャップを埋めます。
要約(オリジナル)
As the capabilities of large language models (LLMs) continue to advance, evaluating their performance becomes increasingly crucial and challenging. This paper aims to bridge this gap by introducing CMMLU, a comprehensive Chinese benchmark that covers various subjects, including natural science, social sciences, engineering, and humanities. We conduct a thorough evaluation of 18 advanced multilingual- and Chinese-oriented LLMs, assessing their performance across different subjects and settings. The results reveal that most existing LLMs struggle to achieve an average accuracy of 50%, even when provided with in-context examples and chain-of-thought prompts, whereas the random baseline stands at 25%. This highlights significant room for improvement in LLMs. Additionally, we conduct extensive experiments to identify factors impacting the models’ performance and propose directions for enhancing LLMs. CMMLU fills the gap in evaluating the knowledge and reasoning capabilities of large language models within the Chinese context.
arxiv情報
著者 | Haonan Li,Yixuan Zhang,Fajri Koto,Yifei Yang,Hai Zhao,Yeyun Gong,Nan Duan,Timothy Baldwin |
発行日 | 2023-06-15 15:49:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google