Quantifying Variance in Evaluation Benchmarks

要約

評価ベンチマークは、大規模言語モデル (LLM) の機能を測定するための基礎であり、また、その機能の進歩を促進するものでもあります。
評価ベンチマークは元々、完全に事前トレーニングされたモデルの機能 (またはその欠如) について主張するために設計されましたが、現在ではさまざまなトレーニングの選択肢を決定するためにも広く使用されています。
このように広く使用されているにもかかわらず、パフォーマンスの違いに意味があるかどうかを決定する評価ベンチマークの差異を定量化することはほとんどありません。
ここでは、初期化間のシード分散やトレーニング中の単調性など、評価ベンチマークの分散の測定を目的とした一連のメトリクスを定義して測定します。
多数のモデル (公開されているモデルとゼロから事前トレーニングされたモデルの両方) を研究することにより、専門家向けの考慮事項と推奨事項とともに、さまざまな分散メトリクスの経験的推定値を提供します。
また、連続的なパフォーマンス測定と離散的なパフォーマンス測定の有用性とトレードオフを評価し、この差異をよりよく理解して削減するためのオプションを検討します。
選択タスク (MMLU など) を完了タスクとしてフレーム化するなどの単純な変更は、多くの場合、小規模 ($\sim$7B) モデルの分散を減らすことができますが、人間によるテストの文献からインスピレーションを得たより複雑な方法 (項目分析や
項目反応理論)分散を有意に減少させるのに苦労しています。
全体として、私たちの研究は、評価ベンチマークの分散に関する洞察を提供し、分散を削減するための LM 固有の手法を提案し、より一般的には、実践者がモデルを比較する際に分散を慎重に考慮することを奨励します。

要約(オリジナル)

Evaluation benchmarks are the cornerstone of measuring capabilities of large language models (LLMs), as well as driving progress in said capabilities. Originally designed to make claims about capabilities (or lack thereof) in fully pretrained models, evaluation benchmarks are now also extensively used to decide between various training choices. Despite this widespread usage, we rarely quantify the variance in our evaluation benchmarks, which dictates whether differences in performance are meaningful. Here, we define and measure a range of metrics geared towards measuring variance in evaluation benchmarks, including seed variance across initialisations, and monotonicity during training. By studying a large number of models — both openly available and pretrained from scratch — we provide empirical estimates for a variety of variance metrics, with considerations and recommendations for practitioners. We also evaluate the utility and tradeoffs of continuous versus discrete performance measures and explore options for better understanding and reducing this variance. We find that simple changes, such as framing choice tasks (like MMLU) as completion tasks, can often reduce variance for smaller scale ($\sim$7B) models, while more involved methods inspired from human testing literature (such as item analysis and item response theory) struggle to meaningfully reduce variance. Overall, our work provides insights into variance in evaluation benchmarks, suggests LM-specific techniques to reduce variance, and more generally encourages practitioners to carefully factor in variance when comparing models.

arxiv情報

著者 Lovish Madaan,Aaditya K. Singh,Rylan Schaeffer,Andrew Poulton,Sanmi Koyejo,Pontus Stenetorp,Sharan Narang,Dieuwke Hupkes
発行日 2024-06-14 17:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク