要約
強力な大規模言語モデル (LLM) をさまざまなモダリティと統合することに多大な努力が払われ、特に言語、視覚、音声データの融合に重点が置かれています。
ただし、グラフ構造のデータは本質的に構造的およびドメイン固有の知識が豊富ですが、まだ LLM に適切に適応されていません。
既存の方法では、生のテキストでグラフを記述してグラフの構造情報が失われるか、説明可能なプロンプト セマンティクスを失うという犠牲を払ってグラフ ニューラル ネットワーク (GNN) 埋め込みを LLM にフィードします。
このギャップを埋めるために、LLM グラフ調整のためのエンドツーエンドのモダリティ調整フレームワーク、Dual-Residual Vector Quantized-variational AutoEncoder、つまり Dr.E. を導入します。
私たちのアプローチは、LLM とのトークンレベルの調整を容易にすることを意図して設計されており、グラフの固有の「言語」を理解可能な自然言語に効果的に翻訳できます。
また、さまざまな距離にある周囲のノードに基づいて中心ノードの複数のビューを組み込むことにより、LLM によるグラフのより堅牢な構造の理解を強化することにも成功しました。
標準的なグラフ タスクに関する実験的評価は、他の最先端 (SOTA) アプローチに対して競合するパフォーマンスを示しています。
さらに、私たちのフレームワークは、視覚的な解釈可能性、効率性、堅牢性を保証しており、LLM と GNN の間のトークンレベルの調整を達成するという有望な取り組みの成功を示しています。
私たちのコードは https://anonymous.4open.science/r/dre-817 で入手できます。
要約(オリジナル)
Significant efforts have been dedicated to integrating the powerful Large Language Models (LLMs) with diverse modalities, particularly focusing on the fusion of language, vision and audio data. However, the graph-structured data, which is inherently rich in structural and domain-specific knowledge, has not yet been gracefully adapted to LLMs. Existing methods either describe the graph with raw text, suffering the loss of graph structural information, or feed Graph Neural Network (GNN) embeddings into LLMs at the cost of losing explainable prompt semantics. To bridge this gap, we introduce an end-to-end modality-aligning framework for LLM-graph alignment: Dual-Residual Vector Quantized-Variational AutoEncoder, namely Dr.E. Our approach is purposefully designed to facilitate token-level alignment with LLMs, enabling an effective translation of the intrinsic `language’ of graphs into comprehensible natural language. We also manage to enhance LLMs’ more robust structural understanding of graphs by incorporating multiple views of the central nodes based on their surrounding nodes at various distances. Our experimental evaluations on standard graph tasks demonstrate competitive performance against other state-of-the-art (SOTA) approaches. Additionally, our framework ensures certain visual interpretability, efficiency, and robustness, marking the promising successful endeavor to achieve token-level alignment between LLMs and GNNs. Our code is available at: https://anonymous.4open.science/r/dre-817.
arxiv情報
著者 | Zipeng Liu,Likang Wu,Ming He,Zhong Guan,Hongke Zhao,Nan Feng |
発行日 | 2024-08-27 10:07:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google