要約
大規模グラフの表現学習は、膨大なデータポイントに含まれる相互依存性の性質に起因する長年の課題である。Transformersは、グラフ構造データのための基礎エンコーダの新たなクラスとして、隣接するノードを超えてすべてのペアの影響をキャプチャすることができるグローバルな注意力により、小さなグラフで有望な性能を示している。それでも、既存のアプローチは、言語や視覚タスクにおけるトランスフォーマーの精神を継承し、深いマルチヘッド注意を積み重ねることで複雑なモデルを受け入れる傾向がある。本稿では、ノード数が千レベルから億レベルに及ぶノード特性予測ベンチマークにおいて、1層のアテンションを用いても驚くほど競争力のある性能を引き出せることを批判的に示す。このことは、大域的アテンションがスケーラビリティの妨げとなる計算オーバーヘッドである、大規模グラフ上のTransformerの設計思想を再考することを促す。我々は、提案するスキームを単純化グラフトランスフォーマー(SGFormer)と名付け、1つのレイヤーで任意のノード間の情報を効率的に伝搬できる単純な注意モデルによって強化する。SGFormerは、位置符号化、特徴/グラフの前処理、あるいは増大損失を必要としない。経験的に、SGFormerは、ウェブスケールのグラフogbn-papers100Mへのスケーリングに成功し、中程度の大きさのグラフにおいて、SOTA Transformersに対して最大141倍の推論加速をもたらす。現在の結果だけでなく、提案された手法だけでも、大規模グラフ上のTransformerを構築するための、独立した興味を持つ新たな技術的道筋を啓示するものであると信じている。
要約(オリジナル)
Learning representations on large-sized graphs is a long-standing challenge due to the inter-dependence nature involved in massive data points. Transformers, as an emerging class of foundation encoders for graph-structured data, have shown promising performance on small graphs due to its global attention capable of capturing all-pair influence beyond neighboring nodes. Even so, existing approaches tend to inherit the spirit of Transformers in language and vision tasks, and embrace complicated models by stacking deep multi-head attentions. In this paper, we critically demonstrate that even using a one-layer attention can bring up surprisingly competitive performance across node property prediction benchmarks where node numbers range from thousand-level to billion-level. This encourages us to rethink the design philosophy for Transformers on large graphs, where the global attention is a computation overhead hindering the scalability. We frame the proposed scheme as Simplified Graph Transformers (SGFormer), which is empowered by a simple attention model that can efficiently propagate information among arbitrary nodes in one layer. SGFormer requires none of positional encodings, feature/graph pre-processing or augmented loss. Empirically, SGFormer successfully scales to the web-scale graph ogbn-papers100M and yields up to 141x inference acceleration over SOTA Transformers on medium-sized graphs. Beyond current results, we believe the proposed methodology alone enlightens a new technical path of independent interest for building Transformers on large graphs.
arxiv情報
著者 | Qitian Wu,Wentao Zhao,Chenxiao Yang,Hengrui Zhang,Fan Nie,Haitian Jiang,Yatao Bian,Junchi Yan |
発行日 | 2024-01-04 14:19:18+00:00 |
arxivサイト | arxiv_id(pdf) |