Learning a Structural Causal Model for Intuition Reasoning in Conversation

要約

NLP 研究の重要な側面である推論は、大規模言語モデルなどの一般的なモデルでは適切に対処されていません。
その重要な要素である会話推論は、適切に設計された認知モデルが存在しないため、ほとんど解明されていません。
この論文では、会話認知に関する直観理論に触発され、各発話がどのように情報チャネルを再帰的に受け取り、活性化するかを説明する会話認知モデル (CCM) を開発します。
さらに、いくつかの穏やかな仮定の下で CCM を構造的因果モデル (SCM) に代数的に変換し、さまざまな因果関係発見手法と互換性を持たせました。
さらに、発話レベルの関係推論のための SCM の確率的実装を提案します。
変分推論を活用することで、暗黙の原因の代替を探索し、その観察不可能性の問題に対処し、証拠の下限を通じて発話の因果表現を再構築します。
さらに、暗黙的な原因と完全な原因ラベルを組み込んだ合成およびシミュレートされたデータセットを構築し、利用可能なすべてのデータセットが暗黙的な原因にとらわれない現在の状況を緩和しました。
広範な実験により、私たちが提案した方法が、合成データセット、シミュレートされたデータセット、および現実世界のデータセットに対して既存の方法よりも大幅に優れていることが実証されました。
最後に、潜在的な交絡因子の下での CCM のパフォーマンスを分析し、この現在未解決の問題に対処するための理論的アイデアを提案します。

要約(オリジナル)

Reasoning, a crucial aspect of NLP research, has not been adequately addressed by prevailing models including Large Language Model. Conversation reasoning, as a critical component of it, remains largely unexplored due to the absence of a well-designed cognitive model. In this paper, inspired by intuition theory on conversation cognition, we develop a conversation cognitive model (CCM) that explains how each utterance receives and activates channels of information recursively. Besides, we algebraically transformed CCM into a structural causal model (SCM) under some mild assumptions, rendering it compatible with various causal discovery methods. We further propose a probabilistic implementation of the SCM for utterance-level relation reasoning. By leveraging variational inference, it explores substitutes for implicit causes, addresses the issue of their unobservability, and reconstructs the causal representations of utterances through the evidence lower bounds. Moreover, we constructed synthetic and simulated datasets incorporating implicit causes and complete cause labels, alleviating the current situation where all available datasets are implicit-causes-agnostic. Extensive experiments demonstrate that our proposed method significantly outperforms existing methods on synthetic, simulated, and real-world datasets. Finally, we analyze the performance of CCM under latent confounders and propose theoretical ideas for addressing this currently unresolved issue.

arxiv情報

著者 Hang Chen,Bingyu Liao,Jing Luo,Wenjing Zhu,Xinyu Yang
発行日 2024-01-16 09:07:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク