要約
新しい LLM 評価ベンチマークは、大規模言語モデル (LLM) の急速な開発に合わせるために重要です。
この研究では、短い質問に答えるための言語モデルの事実能力を評価するための最初の包括的な中国語ベンチマークである Chinese SimpleQA を紹介します。 Chinese SimpleQA には主に 5 つの特性 (つまり、中国語、多様性、高品質、静的、簡単) があります。
-評価する)。
具体的には、まず、99 の多様なサブトピックを含む 6 つの主要トピックにわたって中国語に焦点を当てます。
次に、包括的な品質管理プロセスを実施して、質の高い質問と回答を実現します。参照回答は静的であり、時間が経っても変更できません。
第三に、SimpleQA に続いて、質問と回答は非常に短く、採点プロセスは OpenAI API に基づいて評価しやすいです。
中国のSimpleQAに基づいて、既存のLLMの事実能力を総合的に評価します。
最後に、中国の SimpleQA が、開発者がモデルの中国の事実能力をよりよく理解し、基礎モデルの成長を促進できるようガイドできることを願っています。
要約(オリジナル)
New LLM evaluation benchmarks are important to align with the rapid development of Large Language Models (LLMs). In this work, we present Chinese SimpleQA, the first comprehensive Chinese benchmark to evaluate the factuality ability of language models to answer short questions, and Chinese SimpleQA mainly has five properties (i.e., Chinese, Diverse, High-quality, Static, Easy-to-evaluate). Specifically, first, we focus on the Chinese language over 6 major topics with 99 diverse subtopics. Second, we conduct a comprehensive quality control process to achieve high-quality questions and answers, where the reference answers are static and cannot be changed over time. Third, following SimpleQA, the questions and answers are very short, and the grading process is easy-to-evaluate based on OpenAI API. Based on Chinese SimpleQA, we perform a comprehensive evaluation on the factuality abilities of existing LLMs. Finally, we hope that Chinese SimpleQA could guide the developers to better understand the Chinese factuality abilities of their models and facilitate the growth of foundation models.
arxiv情報
著者 | Yancheng He,Shilong Li,Jiaheng Liu,Yingshui Tan,Weixun Wang,Hui Huang,Xingyuan Bu,Hangyu Guo,Chengwei Hu,Boren Zheng,Zhuoran Lin,Xuepeng Liu,Dekai Sun,Shirong Lin,Zhicheng Zheng,Xiaoyong Zhu,Wenbo Su,Bo Zheng |
発行日 | 2024-11-13 16:27:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google