Causal Representation Learning with Generative Artificial Intelligence: Application to Texts as Treatments

要約

この論文では、生成人工知能の力を活用して、テキストのような非構造化高次元処理で因果推論の妥当性を高める方法を実証します。
具体的には、大規模言語モデル (LLM) などの深層生成モデルを使用して処理を効率的に生成し、その後の因果効果の推定にその内部表現を使用することを提案します。
私たちは、この真の内部表現の知識が、特定の感情や特定のトピックなどの関心のある治療の特徴を、おそらく未知の他の交絡的な特徴から解きほぐすのに役立つことを示します。
既存の方法とは異なり、私たちが提案するアプローチでは、データから因果表現を学習する必要がなくなり、より正確で効率的な推定値が生成されます。
平均治療効果のノンパラメトリックな同定に必要な条件を正式に確立し、重複仮定の違反を回避する推定戦略を提案し、二重機械学習の適用を通じて提案された推定量の漸近特性を導き出します。
最後に、操作変数アプローチを使用して、提案された方法論を設定に拡張します。この場合、治療特徴は、治療対象が与えられて固定されていると想定されるのではなく、人間の知覚に基づいています。
提案された方法論は、LLM を使用して既存のテキストを再生成するテキストの再利用にも適用できます。
私たちは、オープンソース LLM、Llama 3 から生成されたテキスト データを使用してシミュレーションと実証研究を実施し、最先端の因果表現学習アルゴリズムに対する推定器の利点を示します。

要約(オリジナル)

In this paper, we demonstrate how to enhance the validity of causal inference with unstructured high-dimensional treatments like texts, by leveraging the power of generative Artificial Intelligence. Specifically, we propose to use a deep generative model such as large language models (LLMs) to efficiently generate treatments and use their internal representation for subsequent causal effect estimation. We show that the knowledge of this true internal representation helps disentangle the treatment features of interest, such as specific sentiments and certain topics, from other possibly unknown confounding features. Unlike the existing methods, our proposed approach eliminates the need to learn causal representation from the data and hence produces more accurate and efficient estimates. We formally establish the conditions required for the nonparametric identification of the average treatment effect, propose an estimation strategy that avoids the violation of the overlap assumption, and derive the asymptotic properties of the proposed estimator through the application of double machine learning. Finally, using an instrumental variables approach, we extend the proposed methodology to the settings, in which the treatment feature is based on human perception rather than is assumed to be fixed given the treatment object. The proposed methodology is also applicable to text reuse where an LLM is used to regenerate the existing texts. We conduct simulation and empirical studies, using the generated text data from an open-source LLM, Llama 3, to illustrate the advantages of our estimator over the state-of-the-art causal representation learning algorithms.

arxiv情報

著者 Kosuke Imai,Kentaro Nakamura
発行日 2024-11-22 16:31:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.AP パーマリンク