要約
事前トレーニングされた大規模言語モデル (LLM) は、特に非構造化タスク設定 (純粋に言語セマンティクスに基づくタスク) において、言語ベースのプロンプトのみを通じてさまざまな推論機能を実証しました。
ただし、LLM は入力表現に固有の非互換性があるため、構造化されたタスクに苦労することがよくあります。
構造化タスクを一次元の言語セマンティクスに還元すると、問題が些細なものになることがよくあります。
LLM の互換性と構造の複雑さの間のトレードオフを念頭に置き、この論文では、さまざまな LLM のプレーン テキストを超えた表現をナビゲートする機能をテストするために、半構造化タスクのプロキシとしてさまざまなグラフ推論タスクを設計します。
特に、グラフトラバーサルの 10 の異なる問題を設計し、それぞれが複雑さのレベルの増加を表し、前述の 5 つの異なる命令微調整 LLM (GPT-4、GPT-3.5、Claude-2、Llama-2、および Palm-2) のベンチマークを実行します。
タスク。
さらに、さまざまなサイズのグラフやさまざまな形式の K ショット プロンプトなど、さまざまな設定にわたるモデルのパフォーマンスを分析します。
このベンチマーク プロセスを通じて、グラフ内のノードごとのトラバーサルの平均自由度との逆関係、グラフ推論タスクに対する k ショット プロンプトの全体的なマイナスの影響、およびプラスの影響など、LLM のさまざまな制限、バイアス、特性を強調します。
応答バイアスにより、LLM が有効な解決策が存在しないことを特定できなくなります。
最後に、グラフ走査タスク用に特別に設計された新しいプロンプト手法 (PathCompare) を紹介します。これは、思考連鎖 (CoT) などの標準的なプロンプト手法と比較して、LLM のパフォーマンスが顕著に向上していることを示しています。
要約(オリジナル)
Pretrained Large Language Models (LLMs) have demonstrated various reasoning capabilities through language-based prompts alone, particularly in unstructured task settings (tasks purely based on language semantics). However, LLMs often struggle with structured tasks, because of the inherent incompatibility of input representation. Reducing structured tasks to uni-dimensional language semantics often renders the problem trivial. Keeping the trade-off between LLM compatibility and structure complexity in mind, we design various graph reasoning tasks as a proxy to semi-structured tasks in this paper, in order to test the ability to navigate through representations beyond plain text in various LLMs. Particularly, we design 10 distinct problems of graph traversal, each representing increasing levels of complexity, and benchmark 5 different instruct-finetuned LLMs (GPT-4, GPT-3.5, Claude-2, Llama-2 and Palm-2) on the aforementioned tasks. Further, we analyse the performance of models across various settings such as varying sizes of graphs as well as different forms of k-shot prompting. We highlight various limitations, biases and properties of LLMs through this benchmarking process, such as an inverse relation to the average degrees of freedom of traversal per node in graphs, the overall negative impact of k-shot prompting on graph reasoning tasks, and a positive response bias which prevents LLMs from identifying the absence of a valid solution. Finally, we introduce a new prompting technique specially designed for graph traversal tasks (PathCompare), which demonstrates a notable increase in the performance of LLMs in comparison to standard prompting techniques such as Chain-of-Thought (CoT).
arxiv情報
著者 | Palaash Agrawal,Shavak Vasania,Cheston Tan |
発行日 | 2024-04-18 12:04:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google