Precise Model Benchmarking with Only a Few Observations

要約

大規模な質問応答データセット内の特定のトピックに属する質問に対する大規模言語モデル (LLM) の精度を正確に推定するにはどうすればよいでしょうか?
標準の直接推定量は、各サブグループの質問に対するモデルの精度を平均しますが、サンプル サイズが小さいサブグループ (トピック) では高い分散を示す場合があります。
他のトピックに関する質問に対するモデルの精度を活用する合成回帰モデリングでは、大規模なサブグループにとっては信頼性が低すぎる偏った推定値が生成される可能性があります。
私たちは、シンプルかつ効果的なソリューションを規定します。それは、各サブグループの直接推定と回帰推定のバランスを個別に調整する経験的ベイズ (EB) 推定器であり、モデル パフォーマンスのサブグループ レベルの推定の精度を向上させます。
複数のデータセットに対する実験では、このアプローチが直接法や回帰法と比較して、一貫してより正確な LLM パフォーマンスの推定値を提供し、平均二乗誤差の大幅な削減を達成していることがわかりました。
EB 推定値の信頼区間もほぼ名目範囲をカバーしており、直接推定値の信頼区間と比較して狭いです。
表形式データと視覚データに関する追加の実験により、この EB アプローチの利点が検証されます。

要約(オリジナル)

How can we precisely estimate a large language model’s (LLM) accuracy on questions belonging to a specific topic within a larger question-answering dataset? The standard direct estimator, which averages the model’s accuracy on the questions in each subgroup, may exhibit high variance for subgroups (topics) with small sample sizes. Synthetic regression modeling, which leverages the model’s accuracy on questions about other topics, may yield biased estimates that are too unreliable for large subgroups. We prescribe a simple yet effective solution: an empirical Bayes (EB) estimator that balances direct and regression estimates for each subgroup separately, improving the precision of subgroup-level estimates of model performance. Our experiments on multiple datasets show that this approach consistently provides more precise estimates of the LLM performance compared to the direct and regression approaches, achieving substantial reductions in the mean squared error. Confidence intervals for EB estimates also have near-nominal coverage and are narrower compared to those for the direct estimator. Additional experiments on tabular and vision data validate the benefits of this EB approach.

arxiv情報

著者 Riccardo Fogliato,Pratik Patil,Nil-Jana Akpinar,Mathew Monfort
発行日 2024-10-07 17:26:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG, stat.AP パーマリンク