IncomeSCM: From tabular data set to time-series simulator and causal estimation benchmark

要約

因果関係の観察による推定値を評価するには、めったに入手できない情報、つまり無作為化または調整によって作成された対象集団からの混乱のない介入と結果が必要です。
そのため、ベンチマーク タスクを作成するときはシミュレーターに頼るのが一般的です。
シミュレーターは優れた制御を提供しますが、手作業で設計されており現実世界のデータのニュアンスが欠如しているため、または構造的な制約がなく観測データに適合しているため、多くの場合、単純すぎて難しいタスクを実行できません。
この研究では、観測データを逐次構造因果モデルに変換し、次の 2 つの単純な原則に従って困難な推定タスクを実行するための、一般的で反復可能な戦略を提案します。1) 可能な限り現実世界のデータに適合する、2) シンプルな手作業で構成することで複雑さを生み出す
-設計されたメカニズム。
私たちはこれらのアイデアを高度に構成可能なソフトウェア パッケージに実装し、それをよく知られた成人の収入データ セットに適用して IncomeSCM シミュレーターを構築します。
これから、確立された因果効果の推定量を比較するために、複数の推定タスクとサンプル データセットを考案します。
これらのタスクは適切な課題を提示しており、事実の結果のモデリングでは同等のパフォーマンスにもかかわらず、効果推定の品質は手法間で大きく異なり、専用の因果推定量とモデル選択基準の必要性が浮き彫りになっています。

要約(オリジナル)

Evaluating observational estimators of causal effects demands information that is rarely available: unconfounded interventions and outcomes from the population of interest, created either by randomization or adjustment. As a result, it is customary to fall back on simulators when creating benchmark tasks. Simulators offer great control but are often too simplistic to make challenging tasks, either because they are hand-designed and lack the nuances of real-world data, or because they are fit to observational data without structural constraints. In this work, we propose a general, repeatable strategy for turning observational data into sequential structural causal models and challenging estimation tasks by following two simple principles: 1) fitting real-world data where possible, and 2) creating complexity by composing simple, hand-designed mechanisms. We implement these ideas in a highly configurable software package and apply it to the well-known Adult income data set to construct the IncomeSCM simulator. From this, we devise multiple estimation tasks and sample data sets to compare established estimators of causal effects. The tasks present a suitable challenge, with effect estimates varying greatly in quality between methods, despite similar performance in the modeling of factual outcomes, highlighting the need for dedicated causal estimators and model selection criteria.

arxiv情報

著者 Fredrik D. Johansson
発行日 2024-10-28 15:39:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME パーマリンク