要約
グラフは、創薬、レコメンダー システム、ソーシャル ネットワーク分析など、数多くの実世界のアプリケーションで見られるユビキタスなデータ構造です。
グラフ ニューラル ネットワーク (GNN) は、これらの構造上でのメッセージ パッシングを通じてノードの埋め込みを学習するための一般的なツールとなっています。
ただし、既存の GNN アーキテクチャはグラフ間での特徴の位置合わせを目的として設計されていないため、異なる特徴空間を持つ複数のグラフに GNN を適用する場合、重大な課題が発生します。
これに対処するために、最近のアプローチではテキスト属性のグラフが導入されており、各ノードがテキストの説明に関連付けられており、共有テキスト エンコーダを使用して、異なるグラフのノードを統一された特徴空間に投影できるようになりました。
この方法は有望ではありますが、実際にはテキスト属性のデータを入手できるかどうかに大きく依存しています。
このギャップを埋めるために、我々は、大規模言語モデル (LLM) を利用して既存のグラフをテキスト属性のグラフに自動的に変換する、Topology-Aware Node description Synthesis (TANS) という新しい方法を提案します。
重要なアイデアは、トポロジ情報を各ノードのプロパティと統合し、グラフ トポロジがノード セマンティクスにどのように影響するかを説明する LLM の能力を強化することです。
テキストが豊富なグラフ、テキストが制限されたグラフ、およびテキストのないグラフで TANS を評価し、単一の GNN が多様なグラフにわたって動作できることを実証しました。
特に、テキストのないグラフでは、私たちの方法はノード特徴を手動で設計する既存のアプローチよりも大幅に優れており、テキスト情報がない場合でもグラフ構造データを前処理するための LLM の可能性を示しています。
コードとデータは https://github.com/Zehong-Wang/TANS で入手できます。
要約(オリジナル)
Graphs are ubiquitous data structures found in numerous real-world applications, such as drug discovery, recommender systems, and social network analysis. Graph neural networks (GNNs) have become a popular tool to learn node embeddings through message passing on these structures. However, a significant challenge arises when applying GNNs to multiple graphs with different feature spaces, as existing GNN architectures are not designed for cross-graph feature alignment. To address this, recent approaches introduce text-attributed graphs, where each node is associated with a textual description, enabling the use of a shared textual encoder to project nodes from different graphs into a unified feature space. While promising, this method relies heavily on the availability of text-attributed data, which can be difficult to obtain in practice. To bridge this gap, we propose a novel method named Topology-Aware Node description Synthesis (TANS), which leverages large language models (LLMs) to automatically convert existing graphs into text-attributed graphs. The key idea is to integrate topological information with each node’s properties, enhancing the LLMs’ ability to explain how graph topology influences node semantics. We evaluate our TANS on text-rich, text-limited, and text-free graphs, demonstrating that it enables a single GNN to operate across diverse graphs. Notably, on text-free graphs, our method significantly outperforms existing approaches that manually design node features, showcasing the potential of LLMs for preprocessing graph-structured data, even in the absence of textual information. The code and data are available at https://github.com/Zehong-Wang/TANS.
arxiv情報
著者 | Zehong Wang,Sidney Liu,Zheyuan Zhang,Tianyi Ma,Chuxu Zhang,Yanfang Ye |
発行日 | 2024-12-13 13:32:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google