Boosted Control Functions

要約

最新の機械学習手法と大規模データの利用可能性により、大規模な共変量セットからターゲット量を正確に予測する扉が開かれました。
ただし、既存の予測方法は、トレーニング データとテスト データが異なる場合、特に隠れた交絡がある場合にはパフォーマンスが低下する可能性があります。
隠れた交絡は、因果効果の推定 (操作変数など) についてはよく研究されていますが、予測タスクの場合は当てはまりません。
この研究は、観察されていない交絡が存在する場合のさまざまなトレーニングおよびテスト分布の下での予測に対処することで、このギャップを埋めることを目的としています。
特に、機械学習による分布一般化の分野と、計量経済学による連立方程式モデルおよび制御関数との間の新しい接続を確立します。
私たちの貢献の中心となるのは、一連の分布シフトの下でのデータ生成プロセスを記述する分布一般化のための連立方程式モデル (SIMDG) です。
このフレームワーク内で、予測モデルの不変性の強力な概念を提案し、それを既存の (弱い) バージョンと比較します。
操作変数回帰からの制御関数アプローチに基づいて、推論のターゲットとしてブースト制御関数 (BCF) を提案し、基礎となる SIMDG の介入バージョンであっても首尾よく予測できるその能力を証明します。
BCF を特定するために必要かつ十分な条件を提供し、それが最悪の場合に最適であることを示します。
ControlTwicing アルゴリズムを導入して BCF を推定し、シミュレートされたデータと実世界のデータでの予測パフォーマンスを分析します。

要約(オリジナル)

Modern machine learning methods and the availability of large-scale data opened the door to accurately predict target quantities from large sets of covariates. However, existing prediction methods can perform poorly when the training and testing data are different, especially in the presence of hidden confounding. While hidden confounding is well studied for causal effect estimation (e.g., instrumental variables), this is not the case for prediction tasks. This work aims to bridge this gap by addressing predictions under different training and testing distributions in the presence of unobserved confounding. In particular, we establish a novel connection between the field of distribution generalization from machine learning, and simultaneous equation models and control function from econometrics. Central to our contribution are simultaneous equation models for distribution generalization (SIMDGs) which describe the data-generating process under a set of distributional shifts. Within this framework, we propose a strong notion of invariance for a predictive model and compare it with existing (weaker) versions. Building on the control function approach from instrumental variable regression, we propose the boosted control function (BCF) as a target of inference and prove its ability to successfully predict even in intervened versions of the underlying SIMDG. We provide necessary and sufficient conditions for identifying the BCF and show that it is worst-case optimal. We introduce the ControlTwicing algorithm to estimate the BCF and analyze its predictive performance on simulated and real world data.

arxiv情報

著者 Nicola Gnecco,Jonas Peters,Sebastian Engelke,Niklas Pfister
発行日 2023-10-09 15:43:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク