要約
近年の大規模言語モデル(LLM)の進歩により、様々な評価ベンチマークが開発されている。これらのベンチマークは通常、特定のタスクで全てのLLMを評価するための単一の命令テンプレートに依存している。本論文では、3つのベンチマークの20の異なるLLMと39のタスクを含む、650万インスタンスにわたるシングルプロンプト評価によって得られた結果の脆さを包括的に分析する。解析の頑健性を向上させるために、LLMを多様なプロンプトで評価することを提案する。特定のユースケース(例えば、LLM開発者と特定の下流タスクに関心のある開発者)に合わせた評価基準について議論し、LLMの能力のより信頼性の高い有意義な評価を保証する。そして、これらの基準を実装し、複数のモデルの評価を実施することで、現在のLLMの真の強みと限界についての洞察を提供する。
要約(オリジナル)
Recent advances in large language models (LLMs) have led to the development of various evaluation benchmarks. These benchmarks typically rely on a single instruction template for evaluating all LLMs on a specific task. In this paper, we comprehensively analyze the brittleness of results obtained via single-prompt evaluations across 6.5M instances, involving 20 different LLMs and 39 tasks from 3 benchmarks. To improve robustness of the analysis, we propose to evaluate LLMs with a set of diverse prompts instead. We discuss tailored evaluation metrics for specific use cases (e.g., LLM developers vs. developers interested in a specific downstream task), ensuring a more reliable and meaningful assessment of LLM capabilities. We then implement these criteria and conduct evaluations of multiple models, providing insights into the true strengths and limitations of current LLMs.
arxiv情報
著者 | Moran Mizrahi,Guy Kaplan,Dan Malkin,Rotem Dror,Dafna Shahaf,Gabriel Stanovsky |
発行日 | 2024-05-06 10:20:26+00:00 |
arxivサイト | arxiv_id(pdf) |