ANGO: A Next-Level Evaluation Benchmark For Generation-Oriented Language Models In Chinese Domain

要約

最近、さまざまな大規模言語モデル (LLM) 評価データセットが登場していますが、そのほとんどにはランキングの歪みやモデル機能分析の難しさといった問題があります。
これらの懸念に対処するために、この文書では、中国の多肢選択問題の評価ベンチマークである ANGO を紹介します。
ANGO は \textit{Keypoint} の分類基準を初めて提案しました。ANGO の各質問は複数のキーポイントに対応し、評価結果の解釈可能性を効果的に高めます。
実際の人間のパフォーマンスに基づいて、定量化可能な質問の難易度基準を構築し、ANGO の質問を 9 つの難易度に分割します。これにより、モデルのトレーニングにより正確なガイダンスが提供されます。
データ漏洩の影響を最小限に抑え、ANGO の革新的な機能を最大限に活用するために、当社は独自のサンプリング戦略と、迅速なテストセットの反復をサポートする新しい評価フレームワークを設計しました。
私たちの実験は、ANGO が既存のベンチマークと比較して、モデルに対してより強力な課題を提示し、評価結果の詳細を明らかにすることを示しています。

要約(オリジナル)

Recently, various Large Language Models (LLMs) evaluation datasets have emerged, but most of them have issues with distorted rankings and difficulty in model capabilities analysis. Addressing these concerns, this paper introduces ANGO, a Chinese multi-choice question evaluation benchmark. ANGO proposes \textit{Keypoint} categorization standard for the first time, each question in ANGO can correspond to multiple keypoints, effectively enhancing interpretability of evaluation results. Base on performance of real humans, we build a quantifiable question difficulty standard and divide ANGO questions into 9 difficulty levels, which provide more precise guidance for model training. To minimize data leakage impact and fully leverage ANGO’s innovative features, we have engineered exclusive sampling strategies and a new evaluation framework that support swift testset iteration. Our experiments demonstrate that ANGO poses a stronger challenge to models and reveals more details in evaluation result compared to existing benchmarks.

arxiv情報

著者 Bingchao Wang
発行日 2024-01-10 02:59:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク