要約
大規模なデータ ポイントには相互依存関係があるため、大規模なグラフ上の表現を学習することは長年の課題です。
トランスフォーマーは、グラフ構造データ用の基礎エンコーダーの新しいクラスとして、隣接するノードを超えてすべてのペアの影響をキャプチャできるグローバルな注目により、小さなグラフで有望なパフォーマンスを示しています。
それでも、既存のアプローチは、言語と視覚のタスクにおいてトランスフォーマーの精神を継承し、複数の頭による深い注意を積み重ねることによって複雑なモデルを採用する傾向があります。
この論文では、1 層のアテンションを使用するだけでも、ノード数が千レベルから十億レベルに及ぶノード プロパティ予測ベンチマーク全体で驚くほど競争力のあるパフォーマンスをもたらすことができることを批判的に実証します。
これにより、スケーラビリティを妨げる計算オーバーヘッドが世界的に注目される、大きなグラフでの Transformer の設計哲学を再考することが促されます。
提案されたスキームを Simplified Graph Transformers (SGFormer) として構成します。これは、1 つの層内の任意のノード間で情報を効率的に伝播できる単純なアテンション モデルによって強化されています。
SGFormer は、位置エンコーディング、特徴/グラフの前処理、または拡張損失を必要としません。
経験的に、SGFormer は Web スケールのグラフ ogbn-papers100M までスケールアップすることに成功し、中規模のグラフで SOTA Transformer と比較して最大 141 倍の推論加速を実現します。
現在の結果を超えて、提案された方法論だけでも、大規模なグラフ上でトランスフォーマーを構築するための独立した興味深い新しい技術的道筋を明らかにすると考えています。
要約(オリジナル)
Learning representations on large-sized graphs is a long-standing challenge due to the inter-dependence nature involved in massive data points. Transformers, as an emerging class of foundation encoders for graph-structured data, have shown promising performance on small graphs due to its global attention capable of capturing all-pair influence beyond neighboring nodes. Even so, existing approaches tend to inherit the spirit of Transformers in language and vision tasks, and embrace complicated models by stacking deep multi-head attentions. In this paper, we critically demonstrate that even using a one-layer attention can bring up surprisingly competitive performance across node property prediction benchmarks where node numbers range from thousand-level to billion-level. This encourages us to rethink the design philosophy for Transformers on large graphs, where the global attention is a computation overhead hindering the scalability. We frame the proposed scheme as Simplified Graph Transformers (SGFormer), which is empowered by a simple attention model that can efficiently propagate information among arbitrary nodes in one layer. SGFormer requires none of positional encodings, feature/graph pre-processing or augmented loss. Empirically, SGFormer successfully scales to the web-scale graph ogbn-papers100M and yields up to 141x inference acceleration over SOTA Transformers on medium-sized graphs. Beyond current results, we believe the proposed methodology alone enlightens a new technical path of independent interest for building Transformers on large graphs.
arxiv情報
著者 | Qitian Wu,Wentao Zhao,Chenxiao Yang,Hengrui Zhang,Fan Nie,Haitian Jiang,Yatao Bian,Junchi Yan |
発行日 | 2023-10-31 15:05:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google