Stratified Prediction-Powered Inference for Hybrid Language Model Evaluation

要約

予測パワー推論 (PPI) は、人間がラベル付けした限られたデータに基づいて統計的推定を改善する方法です。
PPI は、人がラベルを付けた少量のデータと、ある程度正確ではあるがバイアスがかかっている可能性がある自動システムによってラベルが付けられた大量のデータを組み合わせることによってこれを実現します。これにより、対象となる特定のパラメータ (例:
言語モデルの平均パフォーマンス)。
この論文では、Stratified Prediction-Powered Inference (StratPPI) と呼ばれる方法を提案します。この手法では、単純なデータ階層化戦略を採用することで、基本的な PPI 推定値を大幅に改善できることを示します。
基礎となる自動ラベル付けシステムやデータ分布について何も仮定せずに、層別サンプリングに基づいた母集団パラメーター (平均など) の証明可能で有効な信頼区間を計算するためのアルゴリズムを導き出します。
特に、層別化とサンプル割り当てを適切に選択することにより、層化されていないアプローチよりも大幅に狭い信頼区間を提供できることを理論的にも経験的にも示しています。
具体的には、StratPPI は、ターゲット データのさまざまな条件付き分布によって自動評価者のパフォーマンスが異なる場合に向上することが期待されます。

要約(オリジナル)

Prediction-powered inference (PPI) is a method that improves statistical estimates based on limited human-labeled data. PPI achieves this by combining small amounts of human-labeled data with larger amounts of data labeled by a reasonably accurate — but potentially biased — automatic system, in a way that results in tighter confidence intervals for certain parameters of interest (e.g., the mean performance of a language model). In this paper, we propose a method called Stratified Prediction-Powered Inference (StratPPI), in which we show that the basic PPI estimates can be considerably improved by employing simple data stratification strategies. Without making any assumptions on the underlying automatic labeling system or data distribution, we derive an algorithm for computing provably valid confidence intervals for population parameters (such as averages) that is based on stratified sampling. In particular, we show both theoretically and empirically that, with appropriate choices of stratification and sample allocation, our approach can provide substantially tighter confidence intervals than unstratified approaches. Specifically, StratPPI is expected to improve in cases where the performance of the autorater varies across different conditional distributions of the target data.

arxiv情報

著者 Adam Fisch,Joshua Maynez,R. Alex Hofer,Bhuwan Dhingra,Amir Globerson,William W. Cohen
発行日 2024-06-06 17:37:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク