Position: Don’t Use the CLT in LLM Evals With Fewer Than a Few Hundred Datapoints

要約

有効なエラーバーや有意性テストを含む、大規模な言語モデル(LLM)の厳密な統計的評価は、意味のある信頼性の高いパフォーマンス評価に不可欠です。
現在、そのような統計的測定が報告されている場合、それらは通常、中央の限界定理(CLT)に依存しています。
このポジションペーパーでは、ベンチマークが何千もの例で構成されている場合、CLTベースの不確実性の定量化方法が適切であるが、小規模で高度に専門化されたベンチマークに依存するLLM評価に適切な不確実性の推定値を提供できないと主張します。
これらの小さなデータ設定では、CLTベースのメソッドは非常に不十分に機能し、通常は劇的に不確実性を過小評価していることが示されています(つまり、小さすぎるエラーバーの生成)。
これらのますます一般的なシナリオで、実装が容易であり、より適切な代替の頻繁なメソッドとベイジアンの方法に関する推奨事項を提供します。
https://github.com/sambowyer/bayes_evalsでこれらのベイジアンメソッド用のシンプルなPythonライブラリを提供します。

要約(オリジナル)

Rigorous statistical evaluations of large language models (LLMs), including valid error bars and significance testing, are essential for meaningful and reliable performance assessment. Currently, when such statistical measures are reported, they typically rely on the Central Limit Theorem (CLT). In this position paper, we argue that while CLT-based methods for uncertainty quantification are appropriate when benchmarks consist of thousands of examples, they fail to provide adequate uncertainty estimates for LLM evaluations that rely on smaller, highly specialized benchmarks. In these small-data settings, we demonstrate that CLT-based methods perform very poorly, usually dramatically underestimating uncertainty (i.e. producing error bars that are too small). We give recommendations for alternative frequentist and Bayesian methods that are both easy to implement and more appropriate in these increasingly common scenarios. We provide a simple Python library for these Bayesian methods at https://github.com/sambowyer/bayes_evals .

arxiv情報

著者 Sam Bowyer,Laurence Aitchison,Desi R. Ivanova
発行日 2025-05-28 15:29:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク