Proximal Causal Inference With Text Data


最近のテキストベースの因果関係分析手法は、部分的または不完全に測定された交絡変数の代用として非構造化テキスト データを含めることにより、交絡バイアスを軽減しようとしています。
我々は、処理前のテキストデータを分割し、別々の分割上の 2 つのゼロショットモデルから 2 つのプロキシを推論し、これらのプロキシを近似 g 式に適用する新しい因果推論手法を提案します。
私たちのテキストベースのプロキシ手法は、近似 g 式で要求される識別条件を満たしているが、他の一見合理的と思われる提案は満たしていないことを証明します。
近位因果推論とゼロショット分類器のこの組み合わせは (私たちの知る限り) 新規であり、実践者が利用できるテキスト固有の因果関係メソッドのセットを拡張します。


Recent text-based causal methods attempt to mitigate confounding bias by including unstructured text data as proxies of confounding variables that are partially or imperfectly measured. These approaches assume analysts have supervised labels of the confounders given text for a subset of instances, a constraint that is not always feasible due to data privacy or cost. Here, we address settings in which an important confounding variable is completely unobserved. We propose a new causal inference method that splits pre-treatment text data, infers two proxies from two zero-shot models on the separate splits, and applies these proxies in the proximal g-formula. We prove that our text-based proxy method satisfies identification conditions required by the proximal g-formula while other seemingly reasonable proposals do not. We evaluate our method in synthetic and semi-synthetic settings and find that it produces estimates with low bias. This combination of proximal causal inference and zero-shot classifiers is novel (to our knowledge) and expands the set of text-specific causal methods available to practitioners.


著者 Jacob M. Chen,Rohit Bhattacharya,Katherine A. Keith
発行日 2024-01-12 16:51:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, cs.LG, stat.ME パーマリンク