Decoupling Knowledge and Reasoning in Transformers: A Modular Architecture with Generalized Cross-Attention

要約

Transformer はさまざまな分野で目覚ましい成功を収めてきましたが、そのモノリシック アーキテクチャには解釈性、適応性、拡張性の点で課題があります。
この論文では、効果的な知識の検索のために特別に設計された、レイヤー固有の変換を備えたグローバルに共有される知識ベースへの一般化されたクロスアテンション メカニズムを通じて、知識と推論を明示的に切り離す、新しいモジュール式の Transformer アーキテクチャを紹介します。
重要なことに、標準的な Transformer のフィードフォワード ネットワーク (FFN) がこの一般化されたクロスアテンションの特殊なケース (閉包) であることを示す厳密な数学的導出を提供し、暗黙的な知識の検索におけるその役割を明らかにし、設計を検証します。
この理論的枠組みは、FFN を理解するための新しいレンズを提供し、解釈可能性、適応性、拡張性の強化を探求する将来の研究の基礎を築き、外部の知識ベースや他のシステムとのより豊かな相互作用を可能にします。

要約(オリジナル)

Transformers have achieved remarkable success across diverse domains, but their monolithic architecture presents challenges in interpretability, adaptability, and scalability. This paper introduces a novel modular Transformer architecture that explicitly decouples knowledge and reasoning through a generalized cross-attention mechanism to a globally shared knowledge base with layer-specific transformations, specifically designed for effective knowledge retrieval. Critically, we provide a rigorous mathematical derivation demonstrating that the Feed-Forward Network (FFN) in a standard Transformer is a specialized case (a closure) of this generalized cross-attention, revealing its role in implicit knowledge retrieval and validating our design. This theoretical framework provides a new lens for understanding FFNs and lays the foundation for future research exploring enhanced interpretability, adaptability, and scalability, enabling richer interplay with external knowledge bases and other systems.

arxiv情報

著者 Zhenyu Guo,Wenguang Chen
発行日 2025-01-06 14:26:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク