Learning Decision Policies with Instrumental Variables through Double Machine Learning

要約

データが豊富な環境で意思決定ポリシーを学習する際の一般的な問題は、隠れた交絡因子によって引き起こされる可能性がある、オフライン データセット内の偽の相関です。
機器変数 (IV) 回帰は、機器として知られる主要な交絡されていない変数を利用し、交絡したアクション、結果、およびコンテキスト変数の間の因果関係を学習するための標準的な手法です。
最新の IV 回帰アルゴリズムは 2 段階のアプローチを使用しており、第 1 段階で学習されたディープ ニューラル ネットワーク (DNN) 推定器が第 2 段階に直接接続され、別の DNN が因果効果の推定に使用されます。
単純に推定器を差し込むと、特に第 1 段階の推定器に正則化バイアスが存在する場合、第 2 段階で大きなバイアスが発生する可能性があります。
我々は、2 段階の IV 回帰における偏りを軽減し、高パフォーマンスのポリシーを効果的に学習する非線形 IV 回帰手法である DML-IV を提案します。
バイアスを軽減するための新しい学習目標を導き出し、二重/バイアス解除機械学習 (DML) フレームワークに従って DML-IV アルゴリズムを設計します。
学習された DML-IV 推定量は強力な収束率を持ち、データセットが混乱していない場合の収束率と一致する $O(N^{-1/2})$ の準最適性が保証されます。
DML-IV は、IV 回帰ベンチマークで最先端の IV 回帰手法を上回り、機器の存在下で高パフォーマンスのポリシーを学習します。

要約(オリジナル)

A common issue in learning decision-making policies in data-rich settings is spurious correlations in the offline dataset, which can be caused by hidden confounders. Instrumental variable (IV) regression, which utilises a key unconfounded variable known as the instrument, is a standard technique for learning causal relationships between confounded action, outcome, and context variables. Most recent IV regression algorithms use a two-stage approach, where a deep neural network (DNN) estimator learnt in the first stage is directly plugged into the second stage, in which another DNN is used to estimate the causal effect. Naively plugging the estimator can cause heavy bias in the second stage, especially when regularisation bias is present in the first stage estimator. We propose DML-IV, a non-linear IV regression method that reduces the bias in two-stage IV regressions and effectively learns high-performing policies. We derive a novel learning objective to reduce bias and design the DML-IV algorithm following the double/debiased machine learning (DML) framework. The learnt DML-IV estimator has strong convergence rate and $O(N^{-1/2})$ suboptimality guarantees that match those when the dataset is unconfounded. DML-IV outperforms state-of-the-art IV regression methods on IV regression benchmarks and learns high-performing policies in the presence of instruments.

arxiv情報

著者 Daqian Shao,Ashkan Soleymani,Francesco Quinzan,Marta Kwiatkowska
発行日 2024-06-28 13:31:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク