要約
グラフのオイラートランス(GET)に基づいたグラフ学習のための新しい自己監督の生成事前訓練モデルであるGraphgptを紹介します。
まず、標準のトランスエンコーダーまたはデコーダーアーキテクチャを革新的なグラフからシーケンス変換法と組み合わせたGETを提案します。
このメソッドは、グラフまたはサンプリングされたサブグラフを、オイラーパスを使用して、ノード、エッジ、属性を可逆的に表すトークンのシーケンスに変換します。
2つの自己監視されたタスクのいずれかを使用して、次のトークン予測(NTP)とスケジュールされたマスクトークン予測(SMTP)のいずれかを使用します。
事前に訓練されたモデルは、グラフ、エッジ、ノードレベルの予測などの下流のタスクに対して微調整されます。
そのシンプルさにもかかわらず、GraphGPTは、複数の大規模なオープングラフベンチマーク(OGB)データセットで最先端の方法に匹敵する、または上回るパフォーマンスを実現します。
分子特性予測データセットPCQM4MV2およびタンパク質間相互作用データセットOGBL-PPAで例外的な結果を示しています。
特に、生成プリトレーニングにより、グラフGPTを20億パラメーターにスケーリングしながら、パフォーマンスの向上を維持します。これは、従来のグラフニューラルネットワーク(GNNS)および以前のグラフトランス(GT)のスケーラビリティ制限を克服するブレークスルーです。
グラフファンデーションモデルの研究を進め、化学、材料科学、および関連分野の科学的発見を促進するために、ソースコード(https://github.com/alibaba/graph-gpt)および事前に訓練されたチェックポイントをリリースします。
要約(オリジナル)
We introduceGraphGPT, a novel self-supervised generative pre-trained model for graph learning based on the Graph Eulerian Transformer (GET). First, we propose GET, which combines a standard transformer encoder or decoder architecture with an innovative graph-to-sequence transformation method. This method converts graphs or sampled subgraphs into sequences of tokens representing nodes, edges, and attributes in a reversible manner using Eulerian paths. We pre-train GET using either of the two self-supervised tasks: next-token prediction (NTP) and scheduled masked-token prediction (SMTP). The pre-trained model is then fine-tuned for downstream tasks such as graph-, edge-, and node-level prediction. Despite its simplicity, GraphGPT achieves performance comparable to or surpassing state-of-the-art methods on multiple large-scale Open Graph Benchmark (OGB) datasets. It demonstrates exceptional results on the molecular property prediction dataset PCQM4Mv2 and the protein-protein interaction dataset ogbl-ppa. Notably, generative pre-training enables scaling GraphGPT to 2 billion parameters while maintaining performance gains – a breakthrough that overcomes the scalability limitations of traditional Graph Neural Networks (GNNs) and prior graph transformers (GTs). To advance research in graph foundation models and facilitate scientific discovery in chemistry, materials science, and related fields, we will release the source code (https://github.com/alibaba/graph-gpt) and pre-trained checkpoints.
arxiv情報
著者 | Qifang Zhao,Weidong Ren,Tianyu Li,Hong Liu,Xingsheng He,Xiaoxiao Xu |
発行日 | 2025-02-06 15:27:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google