Rethinking Generative Large Language Model Evaluation for Semantic Comprehension

要約

大規模言語モデル (LLM) は、その洗練された機能にもかかわらず、効果的な評価において大きなハードルに直面します。
このホワイトペーパーでは、まず、簡単な精度測定を可能にする、一般的な評価方法である多肢選択質問応答 (MCQA) を再検討します。
11 のベンチマークにわたる 24 のモデルの包括的な評価を通じて、MCQA のいくつかの潜在的な欠点、たとえば、MCQA 評価と実際のシナリオにおけるオープンエンド応答の生成との間の矛盾を浮き彫りにしました。
これに応じて、GPT-4、GPT-3.5、Google-Gemini-Pro、LLaMA-1/-2 などの 24 の LLM を参加させる RWQ-Elo レーティング システムを導入し、GPT-4 を使用した 2 プレーヤーの競争形式で行います。
裁判官を務める。
その後、各 LLM は Elo 評価を受け取ります。
このシステムは現実世界の使用状況を反映するように設計されており、この目的のために、20,772 件の本物のユーザーの問い合わせからなる「現実世界の質問」(RWQ) と呼ばれる新しいベンチマークを作成しました。
さらに、システムの特性を徹底的に分析し、AlpacaEval や MT-Bench などの以前のリーダーボードと比較します。
私たちの分析により、RWQ-Elo システムの安定性、新しいモデルの登録の実現可能性、LLM リーダーボードを再構築する可能性が明らかになりました。

要約(オリジナル)

Despite their sophisticated capabilities, large language models (LLMs) encounter a major hurdle in effective assessment. This paper first revisits the prevalent evaluation method-multiple choice question answering (MCQA), which allows for straightforward accuracy measurement. Through a comprehensive evaluation of 24 models across 11 benchmarks, we highlight several potential drawbacks of MCQA, for instance, the inconsistency between the MCQA evaluation and the generation of open-ended responses in practical scenarios. In response, we introduce an RWQ-Elo rating system, engaging 24 LLMs such as GPT-4, GPT-3.5, Google-Gemini-Pro and LLaMA-1/-2, in a two-player competitive format, with GPT-4 serving as the judge. Each LLM receives an Elo rating thereafter. This system is designed to mirror real-world usage, and for this purpose, we have compiled a new benchmark called “Real-world questions” (RWQ), comprising 20,772 authentic user inquiries. Additionally, we thoroughly analyze the characteristics of our system and compare it with prior leaderboards like AlpacaEval and MT-Bench. Our analysis reveals the stability of our RWQ-Elo system, the feasibility of registering new models, and its potential to reshape LLM leaderboards.

arxiv情報

著者 Fangyun Wei,Xi Chen,Lin Luo
発行日 2024-03-12 17:59:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク