Assumption-Lean and Data-Adaptive Post-Prediction Inference

要約

現代の科学研究が直面している主な課題は、入手するのに費用がかかり、労働集約的であり、侵襲的である可能性があるゴールドスタンダードデータの入手可能性が限られていることです。
機械学習 (ML) の急速な発展により、科学者は ML アルゴリズムを使用して、より簡単に取得できる変数を使用してゴールドスタンダードの結果を予測できるようになりました。
ただし、これらの予測結果は、予測手順によってもたらされる不正確性や不均一性を無視して、その後の統計分析に直接使用されることがよくあります。
これにより、偽陽性の所見や無効な科学的結論が得られる可能性があります。
この研究では、ML 予測データに基づいた有効かつ強力な推論を可能にする PoSt-Prediction Adaptive inference (PSPA) を導入します。
その「仮定リーン」特性により、ML 予測の仮定なしで信頼できる統計的推論が保証されます。
その「データ適応」機能により、ML 予測の精度に関係なく、既存の方法よりも効率が向上することが保証されます。
私たちは、シミュレーションと実際のデータのアプリケーションを通じて、私たちの方法の統計的優位性と幅広い適用性を実証します。

要約(オリジナル)

A primary challenge facing modern scientific research is the limited availability of gold-standard data which can be costly, labor-intensive, or invasive to obtain. With the rapid development of machine learning (ML), scientists can now employ ML algorithms to predict gold-standard outcomes with variables that are easier to obtain. However, these predicted outcomes are often used directly in subsequent statistical analyses, ignoring imprecision and heterogeneity introduced by the prediction procedure. This will likely result in false positive findings and invalid scientific conclusions. In this work, we introduce PoSt-Prediction Adaptive inference (PSPA) that allows valid and powerful inference based on ML-predicted data. Its ‘assumption-lean’ property guarantees reliable statistical inference without assumptions on the ML prediction. Its ‘data-adaptive’ feature guarantees an efficiency gain over existing methods, regardless of the accuracy of ML prediction. We demonstrate the statistical superiority and broad applicability of our method through simulations and real-data applications.

arxiv情報

著者 Jiacheng Miao,Xinran Miao,Yixuan Wu,Jiwei Zhao,Qiongshi Lu
発行日 2024-09-16 17:47:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME, stat.ML パーマリンク