Let Your Graph Do the Talking: Encoding Structured Data for LLMs

要約

大規模言語モデル (LLM) で使用するために構造化データをシーケンシャル形式にエンコードするにはどうすればよいでしょうか?
この研究では、LLM の構造化データを明示的に表現するためのパラメーター効率の高い方法を導入します。
私たちのメソッド GraphToken は、明示的な構造化情報を使用してプロンプトを拡張するためのエンコード関数を学習します。
限られた領域 (ナレッジ グラフ表現など) に焦点を当てた他の研究とは異なり、私たちの研究は、さまざまな推論タスクに使用される構造化データの一般的なエンコードに焦点を当てた最初の研究です。
グラフ構造を明示的に表現することで、グラフ推論タスクが大幅に改善されることを示します。
具体的には、GraphQA ベンチマークから、ノード、エッジ、およびグラフレベルのタスクで全体的な改善 (最大 73% ポイント) が見られます。

要約(オリジナル)

How can we best encode structured data into sequential form for use in large language models (LLMs)? In this work, we introduce a parameter-efficient method to explicitly represent structured data for LLMs. Our method, GraphToken, learns an encoding function to extend prompts with explicit structured information. Unlike other work which focuses on limited domains (e.g. knowledge graph representation), our work is the first effort focused on the general encoding of structured data to be used for various reasoning tasks. We show that explicitly representing the graph structure allows significant improvements to graph reasoning tasks. Specifically, we see across the board improvements – up to 73% points – on node, edge and, graph-level tasks from the GraphQA benchmark.

arxiv情報

著者 Bryan Perozzi,Bahare Fatemi,Dustin Zelle,Anton Tsitsulin,Mehran Kazemi,Rami Al-Rfou,Jonathan Halcrow
発行日 2024-02-08 17:51:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SI, I.2.6, stat.ML パーマリンク