要約
グラフニューラルネットワーク(GNNS)は、グラフ構造と属性を統合する堅牢な機能により、グラフデータのノード分類の好ましいモデルになりました。
ただし、これらのモデルは、トレーニング用のかなりの量の高品質のラベル付きデータに大きく依存しており、多くの場合、取得するのに費用がかかります。
大規模な言語モデル(LLMS)の台頭により、有望なアプローチは、並外れたゼロショット機能とノードラベルの広範な知識を利用することです。
奨励された結果にもかかわらず、このアプローチはLLMSに多数のクエリを必要とするか、LLMSによって生成された騒々しいラベルのためにパフォーマンスの低下に苦しんでいます。
これらの課題に対処するために、LLMSを費用対効果の高いラベルフリーノード分類を行うアクティブなセルフトレーニングフレームワークであるLocleを紹介します。
Locleは、GNNSを使用して「重要な」サンプルの小さなセットを繰り返し識別し、LLMSとGNNの両方で有益な擬似ラベルを抽出し、モデルトレーニングを強化するための追加の監督シグナルとして機能します。
具体的には、Locleは3つの重要なコンポーネントで構成されています。(i)初期注釈のための効果的なアクティブノード選択戦略。
(ii)ラベルの不調和とエントロピーに基づいて「重要な」ノードを識別する慎重なサンプル選択スキーム。
(iii)LLMとGNNを再配線されたトポロジを組み合わせたラベル改良モジュール。
5つのベンチマークテキストアトリビューグラフデータセットでの広範な実験は、Locleが同じクエリ予算の下でLLMSに最先端のメソッドをラベルなしのノード分類に関して大幅に上回ることを示しています。
特に、14.3Kノードを備えたDBLPデータセットでは、Locleは1セント未満のコストで最先端の精度を8.08%改善します。
私たちのコードは、https://github.com/hkbu-lagas/locleで入手できます。
要約(オリジナル)
Graph neural networks (GNNs) have become the preferred models for node classification in graph data due to their robust capabilities in integrating graph structures and attributes. However, these models heavily depend on a substantial amount of high-quality labeled data for training, which is often costly to obtain. With the rise of large language models (LLMs), a promising approach is to utilize their exceptional zero-shot capabilities and extensive knowledge for node labeling. Despite encouraging results, this approach either requires numerous queries to LLMs or suffers from reduced performance due to noisy labels generated by LLMs. To address these challenges, we introduce Locle, an active self-training framework that does Label-free node Classification with LLMs cost-Effectively. Locle iteratively identifies small sets of ‘critical’ samples using GNNs and extracts informative pseudo-labels for them with both LLMs and GNNs, serving as additional supervision signals to enhance model training. Specifically, Locle comprises three key components: (i) an effective active node selection strategy for initial annotations; (ii) a careful sample selection scheme to identify ‘critical’ nodes based on label disharmonicity and entropy; and (iii) a label refinement module that combines LLMs and GNNs with a rewired topology. Extensive experiments on five benchmark text-attributed graph datasets demonstrate that Locle significantly outperforms state-of-the-art methods under the same query budget to LLMs in terms of label-free node classification. Notably, on the DBLP dataset with 14.3k nodes, Locle achieves an 8.08% improvement in accuracy over the state-of-the-art at a cost of less than one cent. Our code is available at https://github.com/HKBU-LAGAS/Locle.
arxiv情報
著者 | Taiyan Zhang,Renchi Yang,Yurui Lai,Mingyu Yan,Xiaochun Ye,Dongrui Fan |
発行日 | 2025-04-28 12:17:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google