Proximal Causal Inference With Text Data

要約

最近のテキストベースの因果関係手法は、非構造化テキスト データから部分的または不完全に測定された交絡変数の代理を推定することによって交絡バイアスを軽減しようとしています。
ただし、これらのアプローチは、アナリストがインスタンスのサブセットのテキストを与えられた交絡因子のラベルを監視していることを前提としていますが、データプライバシーやアノテーションのコストにより、この制約は実行不可能な場合があります。
この研究では、重要な交絡変数がまったく観測されない設定に対処します。
我々は、処理前テキストデータの 2 つのインスタンスを使用し、別々のインスタンスの 2 つのゼロショット モデルを使用して 2 つのプロキシを推論し、これらのプロキシを近似 g 式に適用する新しい因果推論方法を提案します。
テキストのインスタンスとゼロショット予測の精度に関する特定の仮定の下で、テキストベースのプロキシを推論する私たちの方法は近位 g 式の識別条件を満たしますが、他の一見合理的と思われる提案は満たさないことを証明します。
私たちの方法と近似 g 式に関連するテスト不可能な仮定に対処するために、推論されたプロキシを使用して下流効果の推定を続行するタイミングを示すオッズ比偽装ヒューリスティックをさらに提案します。
私たちは、合成および半合成の設定で手法を評価しました。後者では、MIMIC-III からの実世界の臨床ノートと、ゼロショット予測用のオープンな大規模言語モデルを使用しました。その結果、我々の手法がバイアスの低い推定値を生成することがわかりました。
このテキストベースのプロキシ設計により、特に構造化データから適切なプロキシを取得することが難しいシナリオなど、幅広いシナリオでの近似因果推論の使用が可能になると考えています。

要約(オリジナル)

Recent text-based causal methods attempt to mitigate confounding bias by estimating proxies of confounding variables that are partially or imperfectly measured from unstructured text data. These approaches, however, assume analysts have supervised labels of the confounders given text for a subset of instances, a constraint that is sometimes infeasible due to data privacy or annotation costs. In this work, we address settings in which an important confounding variable is completely unobserved. We propose a new causal inference method that uses two instances of pre-treatment text data, infers two proxies using two zero-shot models on the separate instances, and applies these proxies in the proximal g-formula. We prove, under certain assumptions about the instances of text and accuracy of the zero-shot predictions, that our method of inferring text-based proxies satisfies identification conditions of the proximal g-formula while other seemingly reasonable proposals do not. To address untestable assumptions associated with our method and the proximal g-formula, we further propose an odds ratio falsification heuristic that flags when to proceed with downstream effect estimation using the inferred proxies. We evaluate our method in synthetic and semi-synthetic settings — the latter with real-world clinical notes from MIMIC-III and open large language models for zero-shot prediction — and find that our method produces estimates with low bias. We believe that this text-based design of proxies allows for the use of proximal causal inference in a wider range of scenarios, particularly those for which obtaining suitable proxies from structured data is difficult.

arxiv情報

著者 Jacob M. Chen,Rohit Bhattacharya,Katherine A. Keith
発行日 2024-10-29 15:12:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.ME パーマリンク