要約
グラフ認識の関係推論を注意メカニズムに統合し、グラフニューラルネットワークと言語モデリングからの概念を統合することにより、変圧器アーキテクチャを変更するアプローチを提示します。
注意とグラフ理論の固有のつながりに基づいて、トランスの注意メカニズムをグラフ操作として再定式化し、グラフ認識の同型注意を提案します。
この方法は、リレーショナル構造の表現を豊かにするために、グラフ同型ネットワーク(GIN)および主要な近隣集合(PNA)を含む高度なグラフモデリング戦略を活用しています。
私たちのアプローチは、一般化ギャップの削減と学習パフォーマンスの向上によって証明されるように、複雑な依存関係を捉え、タスク全体で一般化します。
さらに、グラフ認識の注意の概念を拡大して、まばらなジンアテンションを導入します。これは、まばらなジンを使用する微調整アプローチです。
注意マトリックスをまばらな隣接グラフとして解釈することにより、この手法は、最小限の計算オーバーヘッドで事前に訓練された基礎モデルの適応性を向上させ、グラフ認識機能を授与します。
スパースジンアテンションの微調整は、低ランク適応(LORA)などの代替方法と比較して、改善されたトレーニングダイナミクスとより良い一般化を達成します。
伝統的な注意メカニズム内の潜在的なグラフのような構造について説明し、トランスを理解できる新しいレンズを提供します。
リレーショナル推論のための階層ジンモデルとして変圧器を進化させることにより。
この視点は、基礎モデル開発に対する深い意味を示唆しており、ローカルおよびグローバルな依存関係の両方に動的に適応するアーキテクチャの設計を可能にします。
バイオインフォマティクス、材料科学、言語モデリングなどのアプリケーションは、リレーショナルおよびシーケンシャルデータモデリングのこの統合の恩恵を受ける可能性があり、解釈可能で一般化可能なモデリング戦略の段階を設定します。
要約(オリジナル)
We present an approach to modifying Transformer architectures by integrating graph-aware relational reasoning into the attention mechanism, merging concepts from graph neural networks and language modeling. Building on the inherent connection between attention and graph theory, we reformulate the Transformer’s attention mechanism as a graph operation and propose Graph-Aware Isomorphic Attention. This method leverages advanced graph modeling strategies, including Graph Isomorphism Networks (GIN) and Principal Neighborhood Aggregation (PNA), to enrich the representation of relational structures. Our approach captures complex dependencies and generalizes across tasks, as evidenced by a reduced generalization gap and improved learning performance. Additionally, we expand the concept of graph-aware attention to introduce Sparse GIN-Attention, a fine-tuning approach that employs sparse GINs. By interpreting attention matrices as sparse adjacency graphs, this technique enhances the adaptability of pre-trained foundational models with minimal computational overhead, endowing them with graph-aware capabilities. Sparse GIN-Attention fine-tuning achieves improved training dynamics and better generalization compared to alternative methods like low-rank adaption (LoRA). We discuss latent graph-like structures within traditional attention mechanisms, offering a new lens through which Transformers can be understood. By evolving Transformers as hierarchical GIN models for relational reasoning. This perspective suggests profound implications for foundational model development, enabling the design of architectures that dynamically adapt to both local and global dependencies. Applications in bioinformatics, materials science, language modeling, and beyond could benefit from this synthesis of relational and sequential data modeling, setting the stage for interpretable and generalizable modeling strategies.
arxiv情報
著者 | Markus J. Buehler |
発行日 | 2025-03-05 13:19:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google