Double Machine Learning for Static Panel Models with Fixed Effects

要約

機械学習 (ML) アルゴリズムは、高次元または非線形迷惑関数を近似するための強力なデータ駆動型ツールであり、予測子の真の関数形式が事前に不明であるため、実際に役立ちます。
この論文では、交絡回帰変数の非線形効果を考慮したパネル データから政策介入の推定量を開発し、3 つのよく知られた ML アルゴリズム、具体的には LASSO、分類および回帰ツリー、および
ランダムフォレスト。
我々は、Robinson (1988) の部分線形回帰モデルを拡張することにより、観測されていない個々の不均一性 (固定効果) と観測されていない交絡を持たない同種の治療の因果効果を推定するために、Double Machine Learning (DML) (Chernozhukov et al., 2018) を使用します。
我々は、非線形モデルに対する群内推定量、一次差分推定量、および相関変量効果推定量 (Mundlak、1978) の拡張に基づいて、観察されていない個別の不均一性を処理するための 3 つの代替アプローチを開発しました。
モンテカルロ シミュレーションを使用すると、データ生成プロセスが非線形であっても、従来の最小二乗推定器は良好なパフォーマンスを発揮できますが、リグレッサーの真の効果が非線形であるプロセスでは、バイアス削減の点で大幅なパフォーマンスの向上があることがわかります。
直線的かつ不連続的。
ただし、同じシナリオでは、大規模なハイパーパラメータ調整にもかかわらず、両方のツリーベース学習器にとって推論に問題があることもわかりました。これは、非正規性の高い推定量の分布と推定量の分散が大幅に過小評価されるためです。
これは他の状況でのツリーのパフォーマンスと矛盾するため、さらなる調査が必要です。
最後に、英国における全国最低賃金の導入の影響を示す観察パネル データの DML の実例を示します。

要約(オリジナル)

Machine Learning (ML) algorithms are powerful data-driven tools for approximating high-dimensional or non-linear nuisance functions which are useful in practice because the true functional form of the predictors is ex-ante unknown. In this paper, we develop estimators of policy interventions from panel data which allow for non-linear effects of the confounding regressors, and investigate the performance of these estimators using three well-known ML algorithms, specifically, LASSO, classification and regression trees, and random forests. We use Double Machine Learning (DML) (Chernozhukov et al., 2018) for the estimation of causal effects of homogeneous treatments with unobserved individual heterogeneity (fixed effects) and no unobserved confounding by extending Robinson (1988)’s partially linear regression model. We develop three alternative approaches for handling unobserved individual heterogeneity based on extending the within-group estimator, first-difference estimator, and correlated random effect estimator (Mundlak, 1978) for non-linear models. Using Monte Carlo simulations, we find that conventional least squares estimators can perform well even if the data generating process is non-linear, but there are substantial performance gains in terms of bias reduction under a process where the true effect of the regressors is non-linear and discontinuous. However, for the same scenarios, we also find — despite extensive hyperparameter tuning — inference to be problematic for both tree-based learners because these lead to highly non-normal estimator distributions and the estimator variance being severely under-estimated. This contradicts the performance of trees in other circumstances and requires further investigation. Finally, we provide an illustrative example of DML for observational panel data showing the impact of the introduction of the national minimum wage in the UK.

arxiv情報

著者 Paul Clarke,Annalivia Polselli
発行日 2023-12-13 14:34:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, econ.EM, stat.ML パーマリンク