要約
機械学習モデルは、その後の統計分析で入力データとして機能する予測を作成するためにますます使用されています。
たとえば、衛星画像に基づいた経済的および環境的指標のコンピュータービジョン予測は、下流の回帰で使用されます。
同様に、言語モデルは、社会科学研究における人間の評価と意見を近似するために広く使用されています。
ただし、機械学習予測のエラーを適切に説明できないと、標準の統計手順が無効になります。
以前の作業では、予測からデビアスの推定器と呼ばれるものを使用して、機械学習アルゴリズムが欠落している変数を引き起こし、関心のある母集団からの小さな完全なサンプルを想定して有効な信頼区間を提供します。
完全なデータが不均一な(つまり、重み付け、層状、またはクラスター化)サンプルである場合に適用されるブートストラップ信頼区間を導入し、機能の任意のサブセットが帰属する設定に範囲を拡大します。
重要なことに、この方法は、追加の計算を必要とせずに多くの設定に適用できます。
これらの信頼区間は、機械学習モデルの品質に関する仮定なしで有効であり、機械学習予測を使用しない方法で得られる間隔よりも広くないことを証明します。
要約(オリジナル)
Machine learning models are increasingly used to produce predictions that serve as input data in subsequent statistical analyses. For example, computer vision predictions of economic and environmental indicators based on satellite imagery are used in downstream regressions; similarly, language models are widely used to approximate human ratings and opinions in social science research. However, failure to properly account for errors in the machine learning predictions renders standard statistical procedures invalid. Prior work uses what we call the Predict-Then-Debias estimator to give valid confidence intervals when machine learning algorithms impute missing variables, assuming a small complete sample from the population of interest. We expand the scope by introducing bootstrap confidence intervals that apply when the complete data is a nonuniform (i.e., weighted, stratified, or clustered) sample and to settings where an arbitrary subset of features is imputed. Importantly, the method can be applied to many settings without requiring additional calculations. We prove that these confidence intervals are valid under no assumptions on the quality of the machine learning model and are no wider than the intervals obtained by methods that do not use machine learning predictions.
arxiv情報
著者 | Dan M. Kluger,Kerri Lu,Tijana Zrnic,Sherrie Wang,Stephen Bates |
発行日 | 2025-01-30 18:46:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google