要約
大規模言語モデル (LLM) の最近の進歩により、さまざまな評価ベンチマークが開発されました。
これらのベンチマークは通常、特定のタスクに関するすべての LLM を評価する単一の命令テンプレートに依存します。
このペーパーでは、20 の異なる LLM と 3 つのベンチマークからの 39 のタスクを含む 650 万のインスタンスにわたる単一プロンプト評価によって得られた結果の脆弱性を包括的に分析します。
分析の堅牢性を向上させるために、代わりに一連の多様なプロンプトを使用して LLM を評価することを提案します。
私たちは、特定のユースケース (LLM 開発者と特定の下流タスクに関心のある開発者など) に合わせた評価指標について議論し、LLM 機能のより信頼性が高く有意義な評価を保証します。
次に、これらの基準を実装し、複数のモデルの評価を実施し、現在の LLM の真の強みと限界についての洞察を提供します。
要約(オリジナル)
Recent advances in large language models (LLMs) have led to the development of various evaluation benchmarks. These benchmarks typically rely on a single instruction template for evaluating all LLMs on a specific task. In this paper, we comprehensively analyze the brittleness of results obtained via single-prompt evaluations across 6.5M instances, involving 20 different LLMs and 39 tasks from 3 benchmarks. To improve robustness of the analysis, we propose to evaluate LLMs with a set of diverse prompts instead. We discuss tailored evaluation metrics for specific use cases (e.g., LLM developers vs. developers interested in a specific downstream task), ensuring a more reliable and meaningful assessment of LLM capabilities. We then implement these criteria and conduct evaluations of multiple models, providing insights into the true strengths and limitations of current LLMs.
arxiv情報
著者 | Moran Mizrahi,Guy Kaplan,Dan Malkin,Rotem Dror,Dafna Shahaf,Gabriel Stanovsky |
発行日 | 2024-01-30 13:38:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google