Proximal Causal Inference With Text Data

要約

最近のテキストベースの因果関係分析手法は、部分的または不完全に測定された交絡変数の代用として非構造化テキスト データを含めることにより、交絡バイアスを軽減しようとしています。
これらのアプローチは、アナリストがインスタンスのサブセットのテキストを与えられた交絡因子のラベルを監視していることを前提としていますが、データのプライバシーやコストの観点から、この制約は常に実現可能であるとは限りません。
ここでは、重要な交絡変数がまったく観測されない設定について説明します。
我々は、処理前のテキストデータを分割し、別々の分割上の 2 つのゼロショットモデルから 2 つのプロキシを推論し、これらのプロキシを近似 g 式に適用する新しい因果推論手法を提案します。
私たちのテキストベースのプロキシ手法は、近似 g 式で要求される識別条件を満たしているが、他の一見合理的と思われる提案は満たしていないことを証明します。
私たちの手法を合成および半合成設定で評価したところ、偏りの少ない推定値が生成されることがわかりました。
近位因果推論とゼロショット分類器のこの組み合わせは (私たちの知る限り) 新規であり、実践者が利用できるテキスト固有の因果関係メソッドのセットを拡張します。

要約(オリジナル)

Recent text-based causal methods attempt to mitigate confounding bias by including unstructured text data as proxies of confounding variables that are partially or imperfectly measured. These approaches assume analysts have supervised labels of the confounders given text for a subset of instances, a constraint that is not always feasible due to data privacy or cost. Here, we address settings in which an important confounding variable is completely unobserved. We propose a new causal inference method that splits pre-treatment text data, infers two proxies from two zero-shot models on the separate splits, and applies these proxies in the proximal g-formula. We prove that our text-based proxy method satisfies identification conditions required by the proximal g-formula while other seemingly reasonable proposals do not. We evaluate our method in synthetic and semi-synthetic settings and find that it produces estimates with low bias. This combination of proximal causal inference and zero-shot classifiers is novel (to our knowledge) and expands the set of text-specific causal methods available to practitioners.

arxiv情報

著者 Jacob M. Chen,Rohit Bhattacharya,Katherine A. Keith
発行日 2024-01-12 16:51:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.ME パーマリンク