要約
グラフ生成は、複雑な関係や構造化されたデータをモデル化する能力を持つため、分子設計やソーシャルネットワーク解析を含む多くの領域において重要なタスクである。最新のグラフ生成モデルの多くは隣接行列表現を利用しているが、本研究では、グラフをノード集合と辺集合のシーケンスとして表現する別のアプローチを再検討する。グラフを効率的に符号化できることからこのアプローチを提唱し、新しい表現を提案する。この表現に基づき、次トークン予測によりグラフ構造を学習する自動回帰モデルであるグラフ生成事前学習変換器(Graph Generative Pre-trained Transformer: G2PT)を導入する。G2PTの汎用基礎モデルとしての能力をさらに引き出すために、我々は2つの下流アプリケーション、すなわちゴール指向生成とグラフ特性予測のための微調整戦略を探求する。複数のデータセットで広範な実験を行った。その結果、G2PTは一般的なグラフデータセットと分子データセットの両方において優れた生成性能を達成することが示された。さらに、G2PTは、分子設計から物性予測までの下流タスクにおいて、強力な適応性と汎用性を示す。コードはhttps://github.com/tufts-ml/G2PT、
要約(オリジナル)
Graph generation is a critical task in numerous domains, including molecular design and social network analysis, due to its ability to model complex relationships and structured data. While most modern graph generative models utilize adjacency matrix representations, this work revisits an alternative approach that represents graphs as sequences of node set and edge set. We advocate for this approach due to its efficient encoding of graphs and propose a novel representation. Based on this representation, we introduce the Graph Generative Pre-trained Transformer (G2PT), an auto-regressive model that learns graph structures via next-token prediction. To further exploit G2PT’s capabilities as a general-purpose foundation model, we explore fine-tuning strategies for two downstream applications: goal-oriented generation and graph property prediction. We conduct extensive experiments across multiple datasets. Results indicate that G2PT achieves superior generative performance on both generic graph and molecule datasets. Furthermore, G2PT exhibits strong adaptability and versatility in downstream tasks from molecular design to property prediction. Code available at https://github.com/tufts-ml/G2PT,
arxiv情報
著者 | Xiaohui Chen,Yinkai Wang,Jiaxing He,Yuanqi Du,Soha Hassoun,Xiaolin Xu,Li-Ping Liu |
発行日 | 2025-06-03 16:53:33+00:00 |
arxivサイト | arxiv_id(pdf) |