Evidence to Generate (E2G): A Single-agent Two-step Prompting for Context Grounded and Retrieval Augmented Reasoning

要約

思考連鎖 (CoT) プロンプトは、LLM が推論タスクを実行する方法に革命をもたらしましたが、その現在の方法とバリエーション (自己一貫性、ReACT、反射、思考ツリー (ToT)、累積推論 (CR) など) には問題があります。
遅さ、限定されたコンテキストグラウンディング、幻覚、一貫性のない出力などの制限から解放されます。
これらの課題を克服するために、当社は、単一エージェントで 2 段階のプロンプトを行う新しいフレームワークである Evidence to Generate (E2G) を導入します。
この革新的なアプローチは、未検証の推論主張の代わりに、まずコンテキスト内で明示的に言及されている思考シーケンス (一連の中間ステップ) のみに焦点を当てることで、「意思決定のための証拠」の力を活用し、抽出された証拠として機能し、LLM の出力を導きます。
生成プロセスの精度と効率が向上します。
このシンプルかつ強力なアプローチは、プロンプトなどの思考連鎖の真の可能性を解き放ち、LLM でのより高速で信頼性の高い、より文脈を意識した推論への道を開きます。
\tool は、最先端の LLM を使用したベースライン アプローチを超え、幅広い知識集約型の推論および生成タスクにわたって堅牢に優れた結果を達成します。
たとえば、(i) GPT-4 をバックボーン モデルとして使用する LogiQA ベンチマークでは、\tool は CoT を 18%、ToT 11%、CR 9% を上回る 53.8% という新しい精度を達成します (ii) a
PaLM2 を使用した E2G のバリアントは、Gemini Ultra の可変ショット パフォーマンスを 0.9 F1 ポイント上回り、DROP のサブセットで 83.3 の F1 スコアに達しました。

要約(オリジナル)

While chain-of-thought (CoT) prompting has revolutionized how LLMs perform reasoning tasks, its current methods and variations (e.g, Self-consistency, ReACT, Reflexion, Tree-of-Thoughts (ToT), Cumulative Reasoning (CR)) suffer from limitations like slowness, limited context grounding, hallucination and inconsistent outputs. To overcome these challenges, we introduce Evidence to Generate (E2G), a novel single-agent, two-step prompting framework. Instead of unverified reasoning claims, this innovative approach leverages the power of ‘evidence for decision making’ by first focusing exclusively on the thought sequences (the series of intermediate steps) explicitly mentioned in the context which then serve as extracted evidence, guiding the LLM’s output generation process with greater precision and efficiency. This simple yet powerful approach unlocks the true potential of chain-of-thought like prompting, paving the way for faster, more reliable, and more contextually aware reasoning in LLMs. \tool achieves remarkable results robustly across a wide range of knowledge-intensive reasoning and generation tasks, surpassing baseline approaches with state-of-the-art LLMs. For example, (i) on LogiQA benchmark using GPT-4 as backbone model, \tool achieves a new state-of-the Accuracy of 53.8% exceeding CoT by 18%, ToT by 11%, CR by 9% (ii) a variant of E2G with PaLM2 outperforms the variable-shot performance of Gemini Ultra by 0.9 F1 points, reaching an F1 score of 83.3 on a subset of DROP.

arxiv情報

著者 Md Rizwan Parvez
発行日 2024-01-11 09:49:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク