Measuring Massive Multitask Chinese Understanding

要約

大規模な中国語言語モデルの開発が盛んであるが、それに対応する能力評価が不足している。そこで、大規模な中国語言語モデルのマルチタスク精度を測定するテストを提案する。このテストは、医学、法律、心理学、教育の4つの主要なドメインを含み、医学では15個のサブタスク、教育では8個のサブタスクで構成されています。その結果、ゼロショット設定における最高性能のモデルは、最低性能のモデルを平均で18.6%ポイント近くも上回ることがわかりました。4つの主要ドメイン全体では、全モデルのゼロショット精度の平均が最も高いのは0.512です。サブドメインでは、臨床医学でGPT-3.5-turboモデルのみが0.693のゼロショット精度を達成し、これはすべてのサブタスクで全モデルの中で最も高い精度であった。また、法律分野では、すべてのモデルが0.239の精度を達成し、最も高いゼロショット精度を達成しました。複数の分野にまたがる知識の広さと深さを総合的に評価することで、このテストはモデルの欠点をより正確に特定することができます。

要約(オリジナル)

The development of large-scale Chinese language models is flourishing, yet there is a lack of corresponding capability assessments. Therefore, we propose a test to measure the multitask accuracy of large Chinese language models. This test encompasses four major domains, including medicine, law, psychology, and education, with 15 subtasks in medicine and 8 subtasks in education. We found that the best-performing models in the zero-shot setting outperformed the worst-performing models by nearly 18.6 percentage points on average. Across the four major domains, the highest average zero-shot accuracy of all models is 0.512. In the subdomains, only the GPT-3.5-turbo model achieved a zero-shot accuracy of 0.693 in clinical medicine, which was the highest accuracy among all models across all subtasks. All models performed poorly in the legal domain, with the highest zero-shot accuracy reaching only 0.239. By comprehensively evaluating the breadth and depth of knowledge across multiple disciplines, this test can more accurately identify the shortcomings of the models.

arxiv情報

著者 Hui Zeng
発行日 2023-05-15 16:41:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, I.2.7 パーマリンク