Teaching Transformers Causal Reasoning through Axiomatic Training

要約

テキストベースの AI システムが現実世界で対話するには、因果推論が不可欠なスキルです。
介入データの生成にはコストがかかるため、エージェントが受動的データからどの程度因果推論を学習できるかを研究します。
具体的には、帰納的バイアスとして公理を組み込んだりデータ値から推論したりするのではなく、エージェントが因果公理 (またはルール) の複数のデモンストレーションから学習する公理トレーニング設定を検討します。
重要な問題は、エージェントが公理の実証から新しいシナリオへの一般化を学習するかどうかです。
たとえば、変換モデルが小さなグラフに対する因果的推移性公理のデモンストレーションでトレーニングされた場合、大きなグラフに対する推移性公理を適用するように一般化されるでしょうか?
新しい公理的なトレーニング スキームに基づいた我々の結果は、そのような一般化が可能であることを示しています。
因果関係のグラフ構造が与えられた場合に、ある変数が別の変数を引き起こすかどうかを推論するタスクを考えます。
6,700 万パラメータのトランスフォーマー モデルは、線形因果チェーン (ノイズの多い変動を含む) でトレーニングすると、より長い因果チェーン、順序が逆の因果チェーン、分岐のあるグラフなど、新しい種類のグラフにうまく一般化できることがわかりました。
そのような設定に対して明示的にトレーニングされていない場合でも。
私たちのモデルは、GPT-4、Gemini Pro、Phi-3 などの多くの大規模な言語モデルと同等 (またはそれ以上) のパフォーマンスを発揮します。
全体として、私たちの公理トレーニング フレームワークは、十分な実証が生成できる限り、任意の公理を学習するために使用できる受動的データから因果推論を学習する新しいパラダイムを提供します。

要約(オリジナル)

For text-based AI systems to interact in the real world, causal reasoning is an essential skill. Since interventional data is costly to generate, we study to what extent an agent can learn causal reasoning from passive data. Specifically, we consider an axiomatic training setup where an agent learns from multiple demonstrations of a causal axiom (or rule), rather than incorporating the axiom as an inductive bias or inferring it from data values. A key question is whether the agent would learn to generalize from the axiom demonstrations to new scenarios. For example, if a transformer model is trained on demonstrations of the causal transitivity axiom over small graphs, would it generalize to applying the transitivity axiom over large graphs? Our results, based on a novel axiomatic training scheme, indicate that such generalization is possible. We consider the task of inferring whether a variable causes another variable, given a causal graph structure. We find that a 67 million parameter transformer model, when trained on linear causal chains (along with some noisy variations) can generalize well to new kinds of graphs, including longer causal chains, causal chains with reversed order, and graphs with branching; even when it is not explicitly trained for such settings. Our model performs at par (or even better) than many larger language models such as GPT-4, Gemini Pro, and Phi-3. Overall, our axiomatic training framework provides a new paradigm of learning causal reasoning from passive data that can be used to learn arbitrary axioms, as long as sufficient demonstrations can be generated.

arxiv情報

著者 Aniket Vashishtha,Abhinav Kumar,Abbavaram Gowtham Reddy,Vineeth N Balasubramanian,Amit Sharma
発行日 2024-07-10 12:50:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク