Cost-Effective Label-free Node Classification with LLMs

要約

グラフ ニューラル ネットワーク (GNN) は、グラフの構造と属性を融合する強力な機能により、グラフ データのノード分類の頼りになるモデルとして登場しました。
ただし、このようなモデルはトレーニング用に適切な高品質のラベル付きデータに大きく依存しており、実際にデータを取得するには費用がかかります。
大規模言語モデル (LLM) の出現により、有望な方法は、ノードのラベル付けにその優れたゼロショット機能と膨大な知識を活用することです。
有望な結果が報告されているにもかかわらず、この方法では LLM に対して大量のクエリが必要になるか、LLM によって生成されるノイズの多いラベルによってパフォーマンスが低下するという問題が発生します。
これらの問題を解決するために、この研究では、費用対効果の高い方法で LLM を GNN に統合するアクティブな自己トレーニング フレームワークである Cella を紹介します。
Cella の設計レシピは、GNN を使用して「重要な」サンプルの小さなセットを繰り返し識別し、モデルのトレーニングを強化するための追加の監視信号として LLM と GNN の両方を使用してそれらの有益な擬似ラベルを抽出することです。
特に、Cella には 3 つの主要なコンポーネントが含まれています。(i) 初期アノテーションに対する効果的なアクティブ ノード選択戦略。
(ii) ラベルの不調和性とエントロピーに基づいて「重要な」ノードを選別するための賢明なサンプル選択スキーム。
(iii) LLM と GNN を再配線されたトポロジーと組み合わせたラベル改良モジュール。
5 つのベンチマークのテキスト属性グラフ データセットに対する広範な実験により、ラベルフリー ノード分類の点で、LLM と同じクエリ バジェットの下で Cella が最先端のパフォーマンスを大幅に上回っていることが実証されました。
特に、14.3k ノードの DBLP データセットでは、Cella は 1 セント未満のコストで、最新技術と比較して 8.08% という顕著な精度の向上を達成できます。

要約(オリジナル)

Graph neural networks (GNNs) have emerged as go-to models for node classification in graph data due to their powerful abilities in fusing graph structures and attributes. However, such models strongly rely on adequate high-quality labeled data for training, which are expensive to acquire in practice. With the advent of large language models (LLMs), a promising way is to leverage their superb zero-shot capabilities and massive knowledge for node labeling. Despite promising results reported, this methodology either demands considerable queries to LLMs, or suffers from compromised performance caused by noisy labels produced by LLMs. To remedy these issues, this work presents Cella, an active self-training framework that integrates LLMs into GNNs in a cost-effective manner. The design recipe of Cella is to iteratively identify small sets of ‘critical’ samples using GNNs and extract informative pseudo-labels for them with both LLMs and GNNs as additional supervision signals to enhance model training. Particularly, Cella includes three major components: (i) an effective active node selection strategy for initial annotations; (ii) a judicious sample selection scheme to sift out the ‘critical’ nodes based on label disharmonicity and entropy; and (iii) a label refinement module combining LLMs and GNNs with rewired topology. Our extensive experiments over five benchmark text-attributed graph datasets demonstrate that Cella significantly outperforms the state of the arts under the same query budget to LLMs in terms of label-free node classification. In particular, on the DBLP dataset with 14.3k nodes, Cella is able to achieve an 8.08% conspicuous improvement in accuracy over the state-of-the-art at a cost of less than one cent.

arxiv情報

著者 Taiyan Zhang,Renchi Yang,Mingyu Yan,Xiaochun Ye,Dongrui Fan,Yurui Lai
発行日 2024-12-16 17:04:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク