Towards Reproducible LLM Evaluation: Quantifying Uncertainty in LLM Benchmark Scores

要約

大規模言語モデル(LLM)は確率的であり、固定ランダムシードで温度をゼロに設定しても、すべてのモデルが決定論的な答えを出すわけではない。しかし、実験を繰り返す時間とコストがかかることもあり、不確実性を定量化しようとするベンチマーク研究はほとんどない。我々は、LLMの枢機卿方向に関する推論能力をテストするために設計されたベンチマークを用いて、平均スコアと予測区間に対する実験繰り返しの影響を調べる。ベンチマークスコアの不確実性をコスト効率よく定量化する簡単な方法を提案し、再現可能なLLM評価に関する提言を行う。

要約(オリジナル)

Large language models (LLMs) are stochastic, and not all models give deterministic answers, even when setting temperature to zero with a fixed random seed. However, few benchmark studies attempt to quantify uncertainty, partly due to the time and cost of repeated experiments. We use benchmarks designed for testing LLMs’ capacity to reason about cardinal directions to explore the impact of experimental repeats on mean score and prediction interval. We suggest a simple method for cost-effectively quantifying the uncertainty of a benchmark score and make recommendations concerning reproducible LLM evaluation.

arxiv情報

著者 Robert E. Blackwell,Jon Barry,Anthony G. Cohn
発行日 2024-10-04 15:04:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク