Hyperparameter Tuning and Model Evaluation in Causal Effect Estimation

要約

ほとんどの因果効果推定器のパフォーマンスは、観測データの高次元非線形関数の正確な予測に依存しています。
最新の機械学習 (ML) メソッドの驚くべき柔軟性は、このタスクに最適です。
ただし、ML メソッドのデータ駆動型のハイパーパラメーター調整には、因果推定の大きなエラーを回避するための効果的なモデル評価が必要です。
最近、複数のパフォーマンス検証メトリクスが提案されているため、実践者はどの因果推定器、ML 学習器、およびハイパーパラメータを選択するかだけでなく、どの評価メトリクスを使用するかについても複雑な決定を下す必要があります。
この論文は、不明確な推奨事項に動機付けられており、因果効果推定のためのモデル評価の 4 つの異なる側面間の相互作用を調査しています。
多くの一般的に使用される因果推定器、ML メソッド、および評価アプローチを含む包括的な実験セットアップを開発し、それを 4 つのよく知られた因果推論ベンチマーク データセットに適用します。
私たちの結果は、ML 学習者の最適なハイパーパラメーター調整は、推定者と学習者に関係なく、効果推定において最先端のパフォーマンスに到達するのに十分であることを示唆しています。
十分に調整されていれば、ほとんどの因果推定器のパフォーマンスはほぼ同等であると結論付けています。
また、ハイパーパラメータの調整とモデルの評価が、因果関係の推定量や ML 手法よりもはるかに重要であることもわかりました。
最後に、最適なモデル選択の選択と比較して、一般的な評価指標の推定パフォーマンスに大きなギャップがあることから、最新の手順によっても現在提供されていない最適なパフォーマンスを解き放つために、因果モデル評価に関するさらなる研究が必要です。
.

要約(オリジナル)

The performance of most causal effect estimators relies on accurate predictions of high-dimensional non-linear functions of the observed data. The remarkable flexibility of modern Machine Learning (ML) methods is perfectly suited to this task. However, data-driven hyperparameter tuning of ML methods requires effective model evaluation to avoid large errors in causal estimates, a task made more challenging because causal inference involves unavailable counterfactuals. Multiple performance-validation metrics have recently been proposed such that practitioners now not only have to make complex decisions about which causal estimators, ML learners and hyperparameters to choose, but also about which evaluation metric to use. This paper, motivated by unclear recommendations, investigates the interplay between the four different aspects of model evaluation for causal effect estimation. We develop a comprehensive experimental setup that involves many commonly used causal estimators, ML methods and evaluation approaches and apply it to four well-known causal inference benchmark datasets. Our results suggest that optimal hyperparameter tuning of ML learners is enough to reach state-of-the-art performance in effect estimation, regardless of estimators and learners. We conclude that most causal estimators are roughly equivalent in performance if tuned thoroughly enough. We also find hyperparameter tuning and model evaluation are much more important than causal estimators and ML methods. Finally, from the significant gap we find in estimation performance of popular evaluation metrics compared with optimal model selection choices, we call for more research into causal model evaluation to unlock the optimum performance not currently being delivered even by state-of-the-art procedures.

arxiv情報

著者 Damian Machlanski,Spyridon Samothrakis,Paul Clarke
発行日 2023-03-02 17:03:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME パーマリンク