Which Modality should I use — Text, Motif, or Image? : Understanding Graphs with Large Language Models

要約

大規模言語モデル (LLM) は、コンテキストを認識したインテリジェンスのために大規模なテキスト コーパスを活用することで、さまざまな分野に革命をもたらしています。
ただし、コンテキストのサイズにより、グラフ全体を LLM でエンコードすることは基本的に制限されます。
この論文では、グラフ データを LLM とより適切に統合する方法を検討し、さまざまなエンコード モダリティ (テキスト、画像、モチーフなど) を使用した新しいアプローチと、複雑な処理における LLM の効率を高めるためのさまざまなプロンプト方法を使用したグラフのグローバル接続性の近似を示します。
グラフ構造。
この研究では、グラフ構造分析におけるLLMを評価するための新しいベンチマークであるGraphTMIも紹介しており、同種性、モチーフの存在、グラフの難易度などの要素に焦点を当てています。
主な調査結果は、GPT-4V のような高度なビジョン言語モデルによってサポートされている画像モダリティが、重要な情報を保持しながらトークン制限を管理する点でテキストよりも効果的であることを明らかにしています。
この研究では、各符号化モダリティのパフォーマンスに対するさまざまな要因の影響も調査しています。
この研究では、グラフの理解と推論タスクにおける LLM の現在の制限を明らかにし、今後の方向性を示します。

要約(オリジナル)

Large language models (LLMs) are revolutionizing various fields by leveraging large text corpora for context-aware intelligence. Due to the context size, however, encoding an entire graph with LLMs is fundamentally limited. This paper explores how to better integrate graph data with LLMs and presents a novel approach using various encoding modalities (e.g., text, image, and motif) and approximation of global connectivity of a graph using different prompting methods to enhance LLMs’ effectiveness in handling complex graph structures. The study also introduces GraphTMI, a new benchmark for evaluating LLMs in graph structure analysis, focusing on factors such as homophily, motif presence, and graph difficulty. Key findings reveal that image modality, supported by advanced vision-language models like GPT-4V, is more effective than text in managing token limits while retaining critical information. The research also examines the influence of different factors on each encoding modality’s performance. This study highlights the current limitations and charts future directions for LLMs in graph understanding and reasoning tasks.

arxiv情報

著者 Debarati Das,Ishaan Gupta,Jaideep Srivastava,Dongyeop Kang
発行日 2023-11-16 12:45:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SI パーマリンク