要約
大規模なグラフ上の表現を学習することは、相互依存の性質のため長年の課題です。
トランスフォーマーは、観察された構造を超えて全ペア相互作用を捕捉するという世界的な注目のおかげで、最近、小さなグラフで有望なパフォーマンスを示しています。
既存のアプローチは、言語および視覚タスクにおいて Transformers の精神を継承し、注意に基づく深い伝播層を積み重ねることによって複雑なアーキテクチャを採用する傾向があります。
この論文では、効率を大幅に制限するグラフ上の Transformers に多層アテンションを採用する必要性を評価することを試みます。
具体的には、全ペア アテンションとグラフベースの伝播で構成される一般的なハイブリッド伝播層を分析し、同じ表現学習機能を備えたまま、多層の伝播を 1 層の伝播に削減できることを示します。
これは、特に表現力を犠牲にすることなくモデル アーキテクチャを簡素化することで、グラフ上に強力で効率的な Transformer を構築するための新しい技術的道筋を提案します。
この研究で例示されているように、我々は単純化された単層グラフ トランスフォーマー (SGFormer) を提案します。その主なコンポーネントは、全体に対して線形にスケールする単層のグローバル アテンションです。
グラフのサイズを調整し、すべてのペアの相互作用に対応するための近似を必要としません。
経験的に、SGFormer は Web スケールのグラフ ogbn-papers100M までスケールアップすることに成功し、中規模のグラフで同等の Transformers を上回る桁違いの推論高速化を実現し、限られたラベル付きデータでの競争力を実証します。
要約(オリジナル)
Learning representations on large graphs is a long-standing challenge due to the inter-dependence nature. Transformers recently have shown promising performance on small graphs thanks to its global attention for capturing all-pair interactions beyond observed structures. Existing approaches tend to inherit the spirit of Transformers in language and vision tasks, and embrace complicated architectures by stacking deep attention-based propagation layers. In this paper, we attempt to evaluate the necessity of adopting multi-layer attentions in Transformers on graphs, which considerably restricts the efficiency. Specifically, we analyze a generic hybrid propagation layer, comprised of all-pair attention and graph-based propagation, and show that multi-layer propagation can be reduced to one-layer propagation, with the same capability for representation learning. It suggests a new technical path for building powerful and efficient Transformers on graphs, particularly through simplifying model architectures without sacrificing expressiveness. As exemplified by this work, we propose a Simplified Single-layer Graph Transformers (SGFormer), whose main component is a single-layer global attention that scales linearly w.r.t. graph sizes and requires none of any approximation for accommodating all-pair interactions. Empirically, SGFormer successfully scales to the web-scale graph ogbn-papers100M, yielding orders-of-magnitude inference acceleration over peer Transformers on medium-sized graphs, and demonstrates competitiveness with limited labeled data.
arxiv情報
著者 | Qitian Wu,Kai Yang,Hengrui Zhang,David Wipf,Junchi Yan |
発行日 | 2024-09-13 17:37:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google