GMLM: Bridging Graph Neural Networks and Language Models for Heterophilic Node Classification

要約

構造化されたグラフデータをノードからの豊富なテキスト情報と統合することは、特に異系統ノード分類において、重要な課題をもたらします。
現在のアプローチは、多くの場合、計算コストや異なるモダリティの効果的な融合に苦しんでいます。
グラフニューラルネットワーク(GNNS)と事前に訓練された言語モデル(PLM)を効率的に組み合わせた新しいアーキテクチャである\ textBf {グラフマスク言語モデル(GMLM)}を提案します。
GMLMは、3つの重要なイノベーションを導入します。(i)a \ textBf {動的アクティブノード選択}スケーラブルPLMテキスト処理のための戦略。
(ii)学習可能なグラフを使用したソフトマスキングを使用したGNN固有の\ textBf {コントラスト前削除段階} \ texttt {[mask]}トークンを使用して、堅牢な構造表現を使用しています。
(iii)a \ textBf {専用のフュージョンモジュール} RGCNベースのGNN埋め込みとPLM(GTE-SMALL \&DISTILBERT)埋め込み。
異種のベンチマーク(テキサス州ウィスコンシン州コーネル)の広範な実験は、GMLMの優位性を示しています。
特に、GMLM(Distilbert)は大幅なパフォーマンスの向上を達成し、以前のベストパフォーマンスのベースラインと比較して、Cornellで\ textBf {4.7 \%}を超えてテキサスで\ textbf {2.0 \%}を超える精度を向上させます。
この作業は、ターゲットを絞ったPLMエンゲージメントと、テキストが豊富なグラフでの改善された効率的な学習のためのモダリティ固有の事前販売の利点を強調しています。

要約(オリジナル)

Integrating structured graph data with rich textual information from nodes poses a significant challenge, particularly for heterophilic node classification. Current approaches often struggle with computational costs or effective fusion of disparate modalities. We propose \textbf{Graph Masked Language Model (GMLM)}, a novel architecture efficiently combining Graph Neural Networks (GNNs) with Pre-trained Language Models (PLMs). GMLM introduces three key innovations: (i) a \textbf{dynamic active node selection} strategy for scalable PLM text processing; (ii) a GNN-specific \textbf{contrastive pretraining stage} using soft masking with a learnable graph \texttt{[MASK]} token for robust structural representations; and (iii) a \textbf{dedicated fusion module} integrating RGCN-based GNN embeddings with PLM (GTE-Small \& DistilBERT) embeddings. Extensive experiments on heterophilic benchmarks (Cornell, Wisconsin, Texas) demonstrate GMLM’s superiority. Notably, GMLM(DistilBERT) achieves significant performance gains, improving accuracy by over \textbf{4.7\%} on Cornell and over \textbf{2.0\%} on Texas compared to the previous best-performing baselines. This work underscores the benefits of targeted PLM engagement and modality-specific pretraining for improved, efficient learning on text-rich graphs.

arxiv情報

著者 Aarush Sinha,OM Kumar CU
発行日 2025-06-02 08:42:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク