Another look at inference after prediction

要約

予測ベース (PB) 推論は、目的の結果を取得するのが難しいものの、その予測子がすぐに利用できるアプリケーションで使用されることが増えています。
従来の推論とは異なり、PB 推論は、機械学習 (ML) モデルから生成された結果の予測を利用して、部分的に観察された結果と共変量のセットを使用して統計的推論を実行します。
Motwani と Witten (2023) は最近、通常の最小二乗法に対する 2 つの革新的な PB 推論アプローチを再検討しました。
彼らは、Wang らによって提案された方法が有効であることを発見しました。
(2020) は、ML モデルが基礎となる回帰関数を完全に捉えている場合に、関心のある関連性の一貫した推定量を生成します。
逆に、Angelopoulos らによって提案された予測力推論 (PPI) 手法は、
(2023) は、モデルの精度に関係なく、有効な推論を生成します。
この論文では、PPI 推定器の統計的効率を研究します。
私たちの分析により、25 年前に Chen と Chen (2000) によって提案されたより効率的な推定量が、PPI 推定量に重みを追加するだけで得られることが明らかになりました。
また、1960 年代に遡る経済学および統計文献の手法を使用して PB 推論を文脈化します。
私たちの広範な理論的および数値的分析は、Chen and Chen (CC) 推定器が ML モデル仕様に対する堅牢性と統計的効率の間のバランスを提供し、実際に使用するのに好ましい選択肢であることを示しています。

要約(オリジナル)

Prediction-based (PB) inference is increasingly used in applications where the outcome of interest is difficult to obtain, but its predictors are readily available. Unlike traditional inference, PB inference performs statistical inference using a partially observed outcome and a set of covariates by leveraging a prediction of the outcome generated from a machine learning (ML) model. Motwani and Witten (2023) recently revisited two innovative PB inference approaches for ordinary least squares. They found that the method proposed by Wang et al. (2020) yields a consistent estimator for the association of interest when the ML model perfectly captures the underlying regression function. Conversely, the prediction-powered inference (PPI) method proposed by Angelopoulos et al. (2023) yields valid inference regardless of the model’s accuracy. In this paper, we study the statistical efficiency of the PPI estimator. Our analysis reveals that a more efficient estimator, proposed 25 years ago by Chen and Chen (2000), can be obtained by simply adding a weight to the PPI estimator. We also contextualize PB inference with methods from the economics and statistics literature dating back to the 1960s. Our extensive theoretical and numerical analyses indicate that the Chen and Chen (CC) estimator offers a balance between robustness to ML model specification and statistical efficiency, making it the preferred choice for use in practice.

arxiv情報

著者 Jessica Gronsbell,Jianhui Gao,Yaqi Shi,Zachary R. McCaw,David Cheng
発行日 2024-11-29 18:12:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク