Evaluating the Generation Capabilities of Large Chinese Language Models

要約

この論文では、幅広い学術分野にわたる大規模な中国語モデルの生成機能の最初の包括的な評価である CG-Eval について説明します。
モデルのパフォーマンスは、科学と工学、人文社会科学、数学的計算、医師資格試験、司法試験、公認公務員の 6 つの分野におけるさまざまな種類の質問に対して正確かつ適切な回答を生成する能力に基づいて評価されました。
会計士試験。
このペーパーでは、参照に対するモデル生成の品質を測定するために、複数のメトリクスの加重合計から導出される複合インデックスである Gscore についても説明します。
テスト データとテスト結果は、http://cgeval.besteasy.com/ でご覧いただけます。

要約(オリジナル)

This paper presents CG-Eval, the first comprehensive evaluation of the generation capabilities of large Chinese language models across a wide range of academic disciplines. The models’ performance was assessed based on their ability to generate accurate and relevant responses to different types of questions in six disciplines, namely, Science and Engineering, Humanities and Social Sciences, Mathematical Calculations, Medical Practitioner Qualification Examination, Judicial Examination, and Certified Public Accountant Examination. This paper also presents Gscore, a composite index derived from the weighted sum of multiple metrics to measure the quality of model’s generation against a reference. The test data and test results can be found at http://cgeval.besteasy.com/.

arxiv情報

著者 Hui Zeng,Jingyuan Xue,Meng Hao,Chen Sun,Bin Ning,Na Zhang
発行日 2023-08-11 04:17:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク