Evaluating Large Language Models on Graphs: Performance Insights and Comparative Analysis

要約

大規模言語モデル (LLM) は、学術界と産業界の両方で大きな関心を集めています。
しかし、LLM をグラフ データに適用することはまだ研究されていません。
この研究では、グラフ データに関するいくつかの分析問題に対処する際の 4 つの LLM の機能を評価します。
当社では、理解度、正確さ、忠実度、修正という 4 つの異なる評価指標を採用しています。
私たちの結果は次のことを示しています: 1) LLM は自然言語でグラフ データを効果的に理解し、グラフ トポロジで推論します。
2) GPT モデルは、論理的で一貫した結果を生成でき、正確さの点で代替モデルを上回ります。
3) 調査されたすべての LLM は構造的推論の課題に直面しており、ゼロショット思考連鎖や少数ショット プロンプトなどの手法では有効性が低下しています。
4) GPT モデルは複数回答タスクで誤った回答を生成することが多く、忠実度に懸念が生じます。
5) GPT モデルは出力の信頼性が高く、整流能力を妨げる可能性があります。
特に、GPT-4 は、GPT-3.5 ターボおよびそれ自体の以前の反復からの応答を修正する能力を実証しました。
コードは https://github.com/Ayame1006/LLMtoGraph から入手できます。

要約(オリジナル)

Large Language Models (LLMs) have garnered considerable interest within both academic and industrial. Yet, the application of LLMs to graph data remains under-explored. In this study, we evaluate the capabilities of four LLMs in addressing several analytical problems with graph data. We employ four distinct evaluation metrics: Comprehension, Correctness, Fidelity, and Rectification. Our results show that: 1) LLMs effectively comprehend graph data in natural language and reason with graph topology. 2) GPT models can generate logical and coherent results, outperforming alternatives in correctness. 3) All examined LLMs face challenges in structural reasoning, with techniques like zero-shot chain-of-thought and few-shot prompting showing diminished efficacy. 4) GPT models often produce erroneous answers in multi-answer tasks, raising concerns in fidelity. 5) GPT models exhibit elevated confidence in their outputs, potentially hindering their rectification capacities. Notably, GPT-4 has demonstrated the capacity to rectify responses from GPT-3.5-turbo and its own previous iterations. The code is available at: https://github.com/Ayame1006/LLMtoGraph.

arxiv情報

著者 Chang Liu,Bo Wu
発行日 2023-08-22 06:32:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク