How Transformers Solve Propositional Logic Problems: A Mechanistic Analysis

要約

大規模言語モデル (LLM) は、計画と推論を必要とするタスクで驚くべきパフォーマンスを示しました。
これを動機として、私たちは、複雑な論理的推論を実行するネットワークの能力を支える内部メカニズムを調査します。
まず、ネットワークのトレーニングと評価のための具体的なテストベッドとして機能する合成命題論理問題を構築します。
重要なことに、この問題を解決するには、重要な計画が必要です。
私たちは 2 つの側面から研究を行っています。
まず、最初からトレーニングされ、完璧なテスト精度を達成する 3 層トランスがこの問題をどのように解決するかを正確に理解することを追求します。
私たちは、目的のロジックを実装するためにアテンション ブロック間の連携を必要とする、ネットワーク内の特定の「計画」および「推論」メカニズムを特定することができます。
次に、事前訓練された LLM、つまり Mistral-7B と Gemma-2-9B がこの問題をどのように解決するかを研究します。
私たちは因果介入実験を通じて彼らの推論回路を特徴づけ、回路の必要性と十分性の証拠を提供します。
2 つのモデルの潜在的な推論戦略が驚くほど類似しており、人間に似ていることを示唆する証拠が見つかりました。
全体として、私たちの研究は小型および大型の変圧器の新しい側面を体系的に明らかにし、変圧器がどのように計画され、推論されるかについての研究を続けています。

要約(オリジナル)

Large language models (LLMs) have shown amazing performance on tasks that require planning and reasoning. Motivated by this, we investigate the internal mechanisms that underpin a network’s ability to perform complex logical reasoning. We first construct a synthetic propositional logic problem that serves as a concrete test-bed for network training and evaluation. Crucially, this problem demands nontrivial planning to solve. We perform our study on two fronts. First, we pursue an understanding of precisely how a three-layer transformer, trained from scratch and attains perfect test accuracy, solves this problem. We are able to identify certain ‘planning’ and ‘reasoning’ mechanisms in the network that necessitate cooperation between the attention blocks to implement the desired logic. Second, we study how pretrained LLMs, namely Mistral-7B and Gemma-2-9B, solve this problem. We characterize their reasoning circuits through causal intervention experiments, providing necessity and sufficiency evidence for the circuits. We find evidence suggesting that the two models’ latent reasoning strategies are surprisingly similar, and human-like. Overall, our work systemically uncovers novel aspects of small and large transformers, and continues the study of how they plan and reason.

arxiv情報

著者 Guan Zhe Hong,Nishanth Dikkala,Enming Luo,Cyrus Rashtchian,Xin Wang,Rina Panigrahy
発行日 2024-12-09 16:36:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク