Can LLMs Effectively Leverage Structural Information for Graph Learning: When and Why

要約

この論文では、構造化データ (特にグラフ) のための大規模言語モデル (LLM) について研究します。これは、LLM 文献ではまだ十分に調査されていない重要なデータ モダリティです。
私たちは、グラフ データに固有の構造情報を組み込むことで、ノード分類タスクにおける LLM の予測パフォーマンスが向上する時期と理由を理解することを目的としています。
「いつ」という問題に対処するために、テキストノードの特徴が豊富であるか、または少ないという設定で、構造情報をエンコードするためのさまざまなプロンプト方法を検討します。
「なぜ」という質問については、LLM のパフォーマンスに寄与する可能性のある 2 つの要因、つまりデータ漏洩と同質性を調査します。
これらの質問を調査すると、(i) LLM は、特にテキストノードの特徴が少ない場合に、構造情報から恩恵を受けることができることがわかります。
(ii) LLM のパフォーマンスがデータ漏洩に大きく起因していることを示す実質的な証拠はありません。
(iii) ターゲット ノード上の LLM のパフォーマンスは、ノードの局所的同質比と強く正の相関があります。

要約(オリジナル)

This paper studies Large Language Models (LLMs) for structured data–particularly graphs–a crucial data modality that remains underexplored in the LLM literature. We aim to understand when and why the incorporation of structural information inherent in graph data can improve the prediction performance of LLMs on node classification tasks. To address the “when” question, we examine a variety of prompting methods for encoding structural information, in settings where textual node features are either rich or scarce. For the “why” questions, we probe into two potential contributing factors to the LLM performance: data leakage and homophily. Our exploration of these questions reveals that (i) LLMs can benefit from structural information, especially when textual node features are scarce; (ii) there is no substantial evidence indicating that the performance of LLMs is significantly attributed to data leakage; and (iii) the performance of LLMs on a target node is strongly positively related to the local homophily ratio of the node.

arxiv情報

著者 Jin Huang,Xingjian Zhang,Qiaozhu Mei,Jiaqi Ma
発行日 2023-09-28 16:58:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク