要約
サブグラフに基づくグラフ表現学習(SGRL)は、モデルの表現力と一般化能力において優れているため、最近、グラフ上の多くの予測タスクにおいて強力なツールとして浮上してきた。従来のSGRLモデルの多くは、学習・テストクエリごとにサブグラフを抽出するコストが高いという計算上の問題に直面しています。近年、SGRLを高速化する新しいフレームワークとして、ランダムウォークをオフラインでサンプリングし、これらのウォークをサブグラフとしてオンラインで結合して予測するSURELが提案されています。SURELは、ランダムウォークをオフラインでサンプリングし、これらのウォークをサブグラフとしてオンライン上で結合して予測を行うもので、異なるクエリ間でサンプリングしたウォークを再利用できるため、スケーラビリティと予測精度の両方で最先端の性能を達成している。しかし、SURELはサンプルウォークのノードの冗長性に起因する高い計算オーバーヘッドを依然として抱えている。本研究では、サブグラフを表現するためにウォークの代わりにノードセットを使用することによってSURELをアップグレードする新しいフレームワークSUREL+を提案する。この集合ベースの表現は、定義上ノードの重複を避けることができるが、ノード集合のサイズは不規則であることがある。この問題に対処するため、ノード集合を効率的に格納し、高速にインデックスを作成するための専用のスパースデータ構造を設計し、並列バッチで結合するための特殊な演算子を提供する。SUREL+は、ウォークからセットへの変換による構造情報の損失を補完するために、複数のタイプのセットサンプラー、構造的特徴、およびニューラルエンコーダーをサポートするようにモジュール化されています。リンク、関係タイプ、高次パターンの予測タスクにおいて、SUREL+を検証するための広範な実験が行われた。SUREL+は、SURELと同等かそれ以上の予測性能を維持しながら、SURELの3-11$倍速を達成し、他のSGRLベースラインと比較して、$sim$20$倍速を達成し、予測精度を著しく向上させる。
要約(オリジナル)
Subgraph-based graph representation learning (SGRL) has recently emerged as a powerful tool in many prediction tasks on graphs due to its advantages in model expressiveness and generalization ability. Most previous SGRL models face computational issues associated with the high cost of extracting subgraphs for each training or testing query. Recently, SUREL has been proposed as a new framework to accelerate SGRL, which samples random walks offline and joins these walks as subgraphs online for prediction. Due to the reusability of sampled walks across different queries, SUREL achieves state-of-the-art performance in both scalability and prediction accuracy. However, SUREL still suffers from high computational overhead caused by node redundancy in sampled walks. In this work, we propose a novel framework SUREL+ that upgrades SUREL by using node sets instead of walks to represent subgraphs. This set-based representation avoids node duplication by definition, but the sizes of node sets can be irregular. To address this issue, we design a dedicated sparse data structure to efficiently store and fast index node sets, and provide a specialized operator to join them in parallel batches. SUREL+ is modularized to support multiple types of set samplers, structural features, and neural encoders to complement the loss of structural information due to the reduction from walks to sets. Extensive experiments have been performed to validate SUREL+ in the prediction tasks of links, relation types, and higher-order patterns. SUREL+ achieves 3-11$\times$ speedups of SUREL while maintaining comparable or even better prediction performance; compared to other SGRL baselines, SUREL+ achieves $\sim$20$\times$ speedups and significantly improves the prediction accuracy.
arxiv情報
著者 | Haoteng Yin,Muhan Zhang,Jianguo Wang,Pan Li |
発行日 | 2023-03-06 18:58:13+00:00 |
arxivサイト | arxiv_id(pdf) |