要約
大規模言語モデル (LLM) は、ロボット工学における計画、マルチホップの質問応答や知識の調査、構造化された常識的推論など、暗黙的なグラフィカル構造を持つさまざまなタスクに採用されることが増えています。
LLM は、構造に影響を与えるこれらのタスクに関して最先端の技術を進歩させてきましたが、LLM がグラフと構造のテキスト記述を明示的に処理し、それらを根拠のある概念的空間にマッピングし、構造化された操作を実行できるかどうかは、まだ解明されていません。
この目的を達成するために、私たちは自然言語で設計されたグラフベースの問題解決の包括的なベンチマークである NLGraph (Natural Language Graph) を提案します。
NLGraph には 29,370 の問題が含まれており、接続性や最短パスなどの単純なタスクから、最大フローやグラフ ニューラル ネットワークのシミュレーションなどの複雑な問題まで、さまざまな複雑さの 8 つのグラフ推論タスクをカバーしています。
NLGraph ベンチマークでさまざまなプロンプト アプローチを使用して LLM (GPT-3/4) を評価したところ、1) 言語モデルは予備的なグラフ推論能力を実証している、2) 高度なプロンプトとコンテキスト内学習の利点は、より複雑なグラフ問題では減少することがわかりました。
一方、3) LLM は、グラフや問題設定における偽の相関に直面すると (当然のことですが) 驚くほど脆弱でもあります。
次に、自然言語グラフの問題を解決する際に LLM を強化するための 2 つの命令ベースのアプローチである、Build-a-Graph Prompting と Algorithmic Prompting を提案します。
グラフの構築とアルゴリズム プロンプトにより、NLGraph 上の LLM のパフォーマンスは複数のタスクと設定にわたって 3.07% から 16.85% 向上しましたが、言語モデルを使用したセットアップで最も複雑なグラフ推論タスクをどのように解決するかは未解決の研究課題のままです。
NLGraph ベンチマークと評価コードは、https://github.com/Arthur-Heng/NLGraph で入手できます。
要約(オリジナル)
Large language models (LLMs) are increasingly adopted for a variety of tasks with implicit graphical structures, such as planning in robotics, multi-hop question answering or knowledge probing, structured commonsense reasoning, and more. While LLMs have advanced the state-of-the-art on these tasks with structure implications, whether LLMs could explicitly process textual descriptions of graphs and structures, map them to grounded conceptual spaces, and perform structured operations remains underexplored. To this end, we propose NLGraph (Natural Language Graph), a comprehensive benchmark of graph-based problem solving designed in natural language. NLGraph contains 29,370 problems, covering eight graph reasoning tasks with varying complexity from simple tasks such as connectivity and shortest path up to complex problems such as maximum flow and simulating graph neural networks. We evaluate LLMs (GPT-3/4) with various prompting approaches on the NLGraph benchmark and find that 1) language models do demonstrate preliminary graph reasoning abilities, 2) the benefit of advanced prompting and in-context learning diminishes on more complex graph problems, while 3) LLMs are also (un)surprisingly brittle in the face of spurious correlations in graph and problem settings. We then propose Build-a-Graph Prompting and Algorithmic Prompting, two instruction-based approaches to enhance LLMs in solving natural language graph problems. Build-a-Graph and Algorithmic prompting improve the performance of LLMs on NLGraph by 3.07% to 16.85% across multiple tasks and settings, while how to solve the most complicated graph reasoning tasks in our setup with language models remains an open research question. The NLGraph benchmark and evaluation code are available at https://github.com/Arthur-Heng/NLGraph.
arxiv情報
著者 | Heng Wang,Shangbin Feng,Tianxing He,Zhaoxuan Tan,Xiaochuang Han,Yulia Tsvetkov |
発行日 | 2023-05-17 08:29:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google