要約
特定の因果関係の質問に対して、特定のデータセットに対してどの因果推論手法を使用するかを効率的に決定することが重要です。
因果関係の手法は通常、複雑で検証が困難な仮定に依存しており、グラウンド トゥルースの因果量が観測されないため交差検証が適用できないため、これは困難です。
この研究では、特定のデータセットに最適な方法を予測するためのフレームワークである CAusal Method Predictor (CAMP) を提案します。
この目的を達成するために、合成因果モデルの多様なセットからデータセットを生成し、候補手法をスコアリングし、そのデータセットに対して最高スコアの手法を直接予測するようにモデルをトレーニングします。
次に、因果推論に関連するデータセットの仮定を中心とした自己教師ありの事前トレーニング目標を策定することで、コストのかかるラベル付きデータの必要性を大幅に削減し、トレーニングの効率を高めます。
私たちの戦略は、暗黙的なデータセットのプロパティをデータ駆動型の方法で最適なメソッドにマッピングすることを学習します。
私たちの実験では、因果関係を発見するための予測方法に焦点を当てています。
CAMP は、個々の候補手法を選択するよりも優れたパフォーマンスを示し、まだ見たことのない半合成ベンチマークや現実世界のベンチマークへの有望な一般化を実証します。
要約(オリジナル)
For a given causal question, it is important to efficiently decide which causal inference method to use for a given dataset. This is challenging because causal methods typically rely on complex and difficult-to-verify assumptions, and cross-validation is not applicable since ground truth causal quantities are unobserved. In this work, we propose CAusal Method Predictor (CAMP), a framework for predicting the best method for a given dataset. To this end, we generate datasets from a diverse set of synthetic causal models, score the candidate methods, and train a model to directly predict the highest-scoring method for that dataset. Next, by formulating a self-supervised pre-training objective centered on dataset assumptions relevant for causal inference, we significantly reduce the need for costly labeled data and enhance training efficiency. Our strategy learns to map implicit dataset properties to the best method in a data-driven manner. In our experiments, we focus on method prediction for causal discovery. CAMP outperforms selecting any individual candidate method and demonstrates promising generalization to unseen semi-synthetic and real-world benchmarks.
arxiv情報
著者 | Shantanu Gupta,Cheng Zhang,Agrin Hilmkil |
発行日 | 2023-11-08 07:53:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google