CLEVA: Chinese Language Models EVAluation Platform

要約

中国語大規模言語モデル (LLM) の継続的な出現により、モデルの機能をどのように評価するかがますます重要な問題になっています。
モデルのパフォーマンスを徹底的に評価する包括的な中国ベンチマークの欠如、標準化されておらず比類のないプロンプト手順、および蔓延する汚染リスクが、現在の中国 LLM の評価において大きな課題となっています。
中国のLLMを総合的に評価するために作られたユーザーフレンドリーなプラットフォームであるCLEVAを紹介します。
当社のプラットフォームは、標準化されたワークフローを採​​用して、LLM のパフォーマンスをさまざまな側面から評価し、競争力のあるリーダーボードを定期的に更新します。
汚染を軽減するために、CLEVA は新しいデータの大部分を厳選し、リーダーボード ラウンドごとに固有のサブセットを保証するサンプリング戦略を開発します。
マウスを数回クリックするだけで済む使いやすいインターフェイスとモデル API により、ユーザーは最小限のコーディングで徹底的な評価を行うことができます。
中国の影響力のある23社のLLMをフィーチャーした大規模実験により、CLEVAの有効性が検証されました。

要約(オリジナル)

With the continuous emergence of Chinese Large Language Models (LLMs), how to evaluate a model’s capabilities has become an increasingly significant issue. The absence of a comprehensive Chinese benchmark that thoroughly assesses a model’s performance, the unstandardized and incomparable prompting procedure, and the prevalent risk of contamination pose major challenges in the current evaluation of Chinese LLMs. We present CLEVA, a user-friendly platform crafted to holistically evaluate Chinese LLMs. Our platform employs a standardized workflow to assess LLMs’ performance across various dimensions, regularly updating a competitive leaderboard. To alleviate contamination, CLEVA curates a significant proportion of new data and develops a sampling strategy that guarantees a unique subset for each leaderboard round. Empowered by an easy-to-use interface that requires just a few mouse clicks and a model API, users can conduct a thorough evaluation with minimal coding. Large-scale experiments featuring 23 influential Chinese LLMs have validated CLEVA’s efficacy.

arxiv情報

著者 Yanyang Li,Jianqiao Zhao,Duo Zheng,Zi-Yuan Hu,Zhi Chen,Xiaohui Su,Yongfeng Huang,Shijia Huang,Dahua Lin,Michael R. Lyu,Liwei Wang
発行日 2023-08-09 09:11:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク