要約
自己回帰言語モデル (LM) における論理推論に関する最近の研究では、そのようなモデルが事前トレーニング中に体系的な推論原理を学習できるのか、それともトレーニング データの表面的なパターンを利用するだけなのかについて議論が巻き起こっています。
この論文では、内部ダイナミクスの理解をさらに高めるために、LM における三段論的推論の機械的解釈を示します。
具体的には、事前トレーニング中に取得した世界の知識からコンテンツに依存しない推論メカニズムを解きほぐすことを目的とした回路発見の方法論を紹介します。
2 つの異なる介入方法を通じて、LM が施設から有効な結論を導き出すために情報を転送する方法を解明する、中期抑制を含む十分かつ必要な回路を明らかにします。
さらに、信念バイアスが三段論的推論でどのように現れるかを調査し、常識と文脈化された知識のコード化を担当する追加の注意頭による部分的な汚染の証拠を見つけます。
最後に、さまざまな三段論法スキームとモデル サイズにわたって発見されたメカニズムの一般化を調査し、モデルが高いダウンストリーム精度 ($\geq$ 60\%) を達成するすべてのスキームにとって、特定された回路が十分かつ必要であることを発見しました。
全体として、私たちの調査結果は、LMが確かに伝達可能な内容に依存しない推論メカニズムを学習するが、同時に、そのようなメカニズムには一般化可能で抽象的な論理プリミティブが含まれておらず、事前トレーニング中に獲得した同じ世界の知識による汚染の影響を受けやすいことを示唆しています。
要約(オリジナル)
Recent studies on logical reasoning in auto-regressive Language Models (LMs) have sparked a debate on whether such models can learn systematic reasoning principles during pre-training or merely exploit superficial patterns in the training data. This paper presents a mechanistic interpretation of syllogistic reasoning in LMs to further enhance our understanding of internal dynamics. Specifically, we present a methodology for circuit discovery aimed at disentangling content-independent reasoning mechanisms from world knowledge acquired during pre-training. Through two distinct intervention methods, we uncover a sufficient and necessary circuit involving middle-term suppression that elucidates how LMs transfer information to derive valid conclusions from premises. Furthermore, we investigate how belief biases manifest in syllogistic reasoning, finding evidence of partial contamination from additional attention heads responsible for encoding commonsense and contextualized knowledge. Finally, we explore the generalization of the discovered mechanisms across various syllogistic schemes and model sizes, finding that the identified circuit is sufficient and necessary for all the schemes on which the model achieves high downstream accuracy ($\geq$ 60\%). Overall, our findings suggest that LMs indeed learn transferable content-independent reasoning mechanisms, but that, at the same time, such mechanisms do not involve generalisable and abstract logical primitives, being susceptible to contamination by the same world knowledge acquired during pre-training.
arxiv情報
著者 | Geonhee Kim,Marco Valentino,André Freitas |
発行日 | 2024-08-16 07:47:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google