Task-Oriented GNNs Training on Large Knowledge Graphs for Accurate and Efficient Modeling

要約

ナレッジ グラフ (KG) は、さまざまな種類のノードとエッジを含む異種グラフです。
ヘテロジニアス グラフ ニューラル ネットワーク (HGNN) は、KG でのノード分類やリンク予測などの機械学習タスクのトレーニングによく使用されます。
ただし、HGNN メソッドは、KG のサイズ、密度、ノードおよびエッジ タイプの数の影響を受ける過度の複雑さを示します。
AI 実践者は、特定のタスクに関連する KG G のサブグラフを手作りします。
このサブグラフをタスク指向サブグラフ (TOSG) と呼びます。これには、G のタスク関連ノードおよびエッジ タイプのサブセットが含まれています。G の代わりに TOSG を使用してタスクをトレーニングすると、大規模な KG に必要な過剰な計算が軽減されます。
TOSG を作成するには、KG の構造とタスクの目的を深く理解する必要があります。
したがって、それは困難であり、時間がかかります。
この論文では、大規模な KG でのタスク指向の HGNN トレーニングのための TOSG 抽出を自動化するアプローチである KG-TOSA を提案します。
KG-TOSA では、特定のタスクに関連する KG のローカルおよびグローバル構造をキャプチャする汎用グラフ パターンを定義します。
グラフ パターンに一致するサブグラフを抽出するためのさまざまな手法を検討します。つまり、(i) バイアスされたランダム ウォークまたは影響スコアを使用してターゲット ノードの周囲をサンプリングする 2 つの手法、および (ii) RDF エンジンの組み込みインデックスを活用した SPARQL ベースの抽出手法です。
したがって、サンプリング手法と比較して、前処理のオーバーヘッドはごくわずかです。
私たちは、大規模な実際の KG のベンチマークと、ノード分類とリンク予測のためのさまざまなタスクを開発します。
私たちの実験では、KG-TOSA が最先端の HGNN 手法により、精度や推論時間などのモデルのパフォーマンスを向上させながら、トレーニング時間とメモリ使用量を最大 70% 削減するのに役立つことが示されました。

要約(オリジナル)

A Knowledge Graph (KG) is a heterogeneous graph encompassing a diverse range of node and edge types. Heterogeneous Graph Neural Networks (HGNNs) are popular for training machine learning tasks like node classification and link prediction on KGs. However, HGNN methods exhibit excessive complexity influenced by the KG’s size, density, and the number of node and edge types. AI practitioners handcraft a subgraph of a KG G relevant to a specific task. We refer to this subgraph as a task-oriented subgraph (TOSG), which contains a subset of task-related node and edge types in G. Training the task using TOSG instead of G alleviates the excessive computation required for a large KG. Crafting the TOSG demands a deep understanding of the KG’s structure and the task’s objectives. Hence, it is challenging and time-consuming. This paper proposes KG-TOSA, an approach to automate the TOSG extraction for task-oriented HGNN training on a large KG. In KG-TOSA, we define a generic graph pattern that captures the KG’s local and global structure relevant to a specific task. We explore different techniques to extract subgraphs matching our graph pattern: namely (i) two techniques sampling around targeted nodes using biased random walk or influence scores, and (ii) a SPARQL-based extraction method leveraging RDF engines’ built-in indices. Hence, it achieves negligible preprocessing overhead compared to the sampling techniques. We develop a benchmark of real KGs of large sizes and various tasks for node classification and link prediction. Our experiments show that KG-TOSA helps state-of-the-art HGNN methods reduce training time and memory usage by up to 70% while improving the model performance, e.g., accuracy and inference time.

arxiv情報

著者 Hussein Abdallah,Waleed Afandi,Panos Kalnis,Essam Mansour
発行日 2024-03-22 14:44:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク