要約
Transformer はさまざまな分野で目覚ましい成功を収めてきましたが、そのモノリシック アーキテクチャには解釈性、適応性、拡張性の点で課題があります。
この論文では、効果的な知識の検索のために特別に設計された、レイヤー固有の変換を備えたグローバルに共有される知識ベースへの一般化されたクロスアテンション メカニズムを通じて、知識と推論を明示的に切り離す、新しいモジュール式の Transformer アーキテクチャを紹介します。
重要なことに、標準的な Transformer のフィードフォワード ネットワーク (FFN) がこの一般化されたクロスアテンションの特殊なケース (閉包) であることを示す厳密な数学的導出を提供し、暗黙的な知識の検索におけるその役割を明らかにし、設計を検証します。
この理論的枠組みは、FFN を理解するための新しいレンズを提供し、解釈可能性、適応性、拡張性の強化を探求する将来の研究の基礎を築き、外部の知識ベースや他のシステムとのより豊かな相互作用を可能にします。
要約(オリジナル)
Transformers have achieved remarkable success across diverse domains, but their monolithic architecture presents challenges in interpretability, adaptability, and scalability. This paper introduces a novel modular Transformer architecture that explicitly decouples knowledge and reasoning through a generalized cross-attention mechanism to a globally shared knowledge base with layer-specific transformations, specifically designed for effective knowledge retrieval. Critically, we provide a rigorous mathematical derivation demonstrating that the Feed-Forward Network (FFN) in a standard Transformer is a specialized case (a closure) of this generalized cross-attention, revealing its role in implicit knowledge retrieval and validating our design. This theoretical framework provides a new lens for understanding FFNs and lays the foundation for future research exploring enhanced interpretability, adaptability, and scalability, enabling richer interplay with external knowledge bases and other systems.
arxiv情報
著者 | Zhenyu Guo,Wenguang Chen |
発行日 | 2025-01-06 14:26:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google