要約
最近、グラフ上で学習するためのトランスフォーマーベースのアーキテクチャが急増しています。これは主に、効果的な学習メカニズムとしての注目と、メッセージ パッシング スキームの特徴である手作りの演算子に取って代わるという要望によって動機づけられています。
ただし、特に、通常は幅広いベンチマークで同等のパフォーマンスを発揮するはるかに単純なグラフ ニューラル ネットワークに関して、経験的な有効性、スケーラビリティ、および前処理ステップの複雑さに関する懸念が生じています。
これらの欠点に対処するために、グラフをエッジのセットとして考慮し、エンコーダーとアテンションプーリングメカニズムから構成される純粋にアテンションベースのアプローチを提案します。
エンコーダは、マスクされたセルフ アテンション モジュールとバニラ セルフ アテンション モジュールを垂直にインターリーブして、エッジの効果的な表現を学習しながら、入力グラフで起こり得る誤った仕様に対処できるようにします。
そのシンプルさにも関わらず、このアプローチは、70 を超えるノードおよびグラフ レベルのタスク (困難な長距離ベンチマークを含む) において、微調整されたメッセージ パッシング ベースラインや最近提案されたトランスフォーマー ベースの手法よりも優れたパフォーマンスを発揮します。
さらに、分子グラフからビジョングラフ、異種親和性リンパ節分類まで、さまざまなタスクにわたって最先端のパフォーマンスを実証します。
また、このアプローチは転移学習設定においてグラフ ニューラル ネットワークやトランスフォーマーよりも優れたパフォーマンスを発揮し、同様のパフォーマンス レベルや表現力を持つ代替手段よりもはるかに優れた拡張性を備えています。
要約(オリジナル)
There has been a recent surge in transformer-based architectures for learning on graphs, mainly motivated by attention as an effective learning mechanism and the desire to supersede handcrafted operators characteristic of message passing schemes. However, concerns over their empirical effectiveness, scalability, and complexity of the pre-processing steps have been raised, especially in relation to much simpler graph neural networks that typically perform on par with them across a wide range of benchmarks. To tackle these shortcomings, we consider graphs as sets of edges and propose a purely attention-based approach consisting of an encoder and an attention pooling mechanism. The encoder vertically interleaves masked and vanilla self-attention modules to learn an effective representations of edges, while allowing for tackling possible misspecifications in input graphs. Despite its simplicity, the approach outperforms fine-tuned message passing baselines and recently proposed transformer-based methods on more than 70 node and graph-level tasks, including challenging long-range benchmarks. Moreover, we demonstrate state-of-the-art performance across different tasks, ranging from molecular to vision graphs, and heterophilous node classification. The approach also outperforms graph neural networks and transformers in transfer learning settings, and scales much better than alternatives with a similar performance level or expressive power.
arxiv情報
著者 | David Buterez,Jon Paul Janet,Dino Oglic,Pietro Lio |
発行日 | 2024-12-06 15:44:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google