要約
豊かな歴史文化遺産の本質を捉える古代中国語の重要性を考えると、大規模言語モデル (LLM) の急速な進歩により、古代中国語の理解を効果的に評価できるベンチマークが必要になります。
このニーズを満たすために、古代中国語の文脈内で LLM の高度な知識と推論能力を評価するように設計された革新的なベンチマークである AC-EVAL を紹介します。
AC-EVAL は、一般的な歴史知識、短文の理解、長文の理解という、言語理解のさまざまな側面を反映した 3 つの難易度で構成されています。
このベンチマークは、歴史的事実、地理、社会習慣、芸術、哲学、古典詩、散文に及ぶ 13 のタスクで構成され、包括的な評価フレームワークを提供します。
英語と中国語の両方に合わせて調整された、最高のパフォーマンスを誇る LLM を広範に評価した結果、古文の理解力を高める大きな可能性が明らかになりました。
AC-EVAL は、LLM の長所と短所を強調することで、古代中国語教育と学術研究の分野で LLM の開発と応用を促進することを目指しています。
AC-EVAL データと評価コードは、https://github.com/yuting-wei/AC-EVAL で入手できます。
要約(オリジナル)
Given the importance of ancient Chinese in capturing the essence of rich historical and cultural heritage, the rapid advancements in Large Language Models (LLMs) necessitate benchmarks that can effectively evaluate their understanding of ancient contexts. To meet this need, we present AC-EVAL, an innovative benchmark designed to assess the advanced knowledge and reasoning capabilities of LLMs within the context of ancient Chinese. AC-EVAL is structured across three levels of difficulty reflecting different facets of language comprehension: general historical knowledge, short text understanding, and long text comprehension. The benchmark comprises 13 tasks, spanning historical facts, geography, social customs, art, philosophy, classical poetry and prose, providing a comprehensive assessment framework. Our extensive evaluation of top-performing LLMs, tailored for both English and Chinese, reveals a substantial potential for enhancing ancient text comprehension. By highlighting the strengths and weaknesses of LLMs, AC-EVAL aims to promote their development and application forward in the realms of ancient Chinese language education and scholarly research. The AC-EVAL data and evaluation code are available at https://github.com/yuting-wei/AC-EVAL.
arxiv情報
著者 | Yuting Wei,Yuanxing Xu,Xinru Wei,Simin Yang,Yangfu Zhu,Yuqing Li,Di Liu,Bin Wu |
発行日 | 2024-03-11 10:24:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google