要約
最近の研究は、予測ベースの推論の非常に一般的な実践に焦点を当てています。つまり、(i) 事前トレーニングされた機械学習モデルを使用して、観測されていない応答変数を予測し、(ii) その予測された応答間の関連性について推論を実行します。
そしていくつかの共変量。
Wang らによって指摘されているように。
(2020) によると、(ii) に標準的な推論アプローチを適用すると、(予測とは対照的に) 観察されなかった応答と共変量の間の関連性が正確に定量化されません。
最近の研究では、Wang ら。
(2020)およびAngelopoulos et al。
(2023) は、観測されていない応答と共変量の間の関連性について有効な推論を可能にするために、ステップ (ii) の修正を提案しています。
ここでは、Angelopoulos らによって提案された方法が有効であることを示します。
(2023) は、観測されていない応答を予測するために使用される事前トレーニングされた機械学習モデルの品質に関係なく、タイプ 1 の誤り率を制御することに成功し、正しい名目範囲を含む信頼区間を提供します。
しかし、Wang らによって提案された方法は、
(2020) は、実際にはほとんど当てはまらない非常に強い条件下でのみ有効な推論を提供します。たとえば、機械学習モデルが対象の研究母集団の真の回帰関数を完全に推定する場合です。
要約(オリジナル)
Recent work has focused on the very common practice of prediction-based inference: that is, (i) using a pre-trained machine learning model to predict an unobserved response variable, and then (ii) conducting inference on the association between that predicted response and some covariates. As pointed out by Wang et al. (2020), applying a standard inferential approach in (ii) does not accurately quantify the association between the unobserved (as opposed to the predicted) response and the covariates. In recent work, Wang et al. (2020) and Angelopoulos et al. (2023) propose corrections to step (ii) in order to enable valid inference on the association between the unobserved response and the covariates. Here, we show that the method proposed by Angelopoulos et al. (2023) successfully controls the type 1 error rate and provides confidence intervals with correct nominal coverage, regardless of the quality of the pre-trained machine learning model used to predict the unobserved response. However, the method proposed by Wang et al. (2020) provides valid inference only under very strong conditions that rarely hold in practice: for instance, if the machine learning model perfectly estimates the true regression function in the study population of interest.
arxiv情報
著者 | Keshav Motwani,Daniela Witten |
発行日 | 2024-01-01 17:11:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google