要約
LLMSが推論タスクをどのように実行するかに革命をもたらしている一方で、現在の方法とバリエーション(例えば、自己整合性、反応、反射、樹木(TOT)、累積推論(CR)など)は、限られた文脈の基礎、幻想/潜在的な出力生成、および潜伏期的なslugishnessなどの制限に苦しんでいます。
これらの課題を克服するために、2つのユニークな戦略の証拠チェーン(COE)}の上に構築された新しいモノ/デュアルステップゼロショットプロンプトフレームワークと生成する証拠(E2G)を紹介します。
未検証の推論の主張の代わりに、当社の革新的なアプローチは、最初に抽出された証拠として機能し、LLMの出力生成プロセスをより正確で効率的に導くというコンテキストで明示的に言及された思考シーケンスにのみ焦点を当てることにより、「意思決定の証拠」の力を活用します。
このシンプルでありながら強力なアプローチは、LLMSでより速く、より信頼性が高く、文脈的に認識されている推論を促進し、促進するチェーンの可能性を完全にロックします。
私たちのフレームワークは、さまざまな知識集約的な推論と生成タスクにわたって一貫して顕著な結果を達成し、最先端のLLMSでベースラインアプローチを上回ります。
たとえば、(i)GPT-4を使用したLogiqaベンチマークでは、COEは53.8%の新しい最先端の精度を達成し、COTを18%、TOT、CRを9%上回ります。
(ii)PALM-2のCOEは、Gemini Ultraの可変ショットパフォーマンスを0.9 F1ポイント上回り、DropでF1スコア83.3を達成します。
https://huggingface.co/datasets/kagnlp/chain-of-evidences/で将来の研究のための新しい命令チューニングデータセットとして、これらのベンチマークのプロンプトと出力をリリースします。
要約(オリジナル)
While chain-of-thoughts (CoT) prompting has revolutionized how LLMs perform reasoning tasks, its current methods and variations (e.g, Self-consistency, ReACT, Reflexion, Tree-of-Thoughts (ToT), Cumulative Reasoning (CR) etc.,) suffer from limitations like limited context grounding, hallucination/inconsistent output generation, and iterative sluggishness. To overcome these challenges, we introduce a novel mono/dual-step zero-shot prompting framework built upon two unique strategies Chain of Evidences (CoE)} and Evidence to Generate (E2G). Instead of unverified reasoning claims, our innovative approaches leverage the power of ‘evidence for decision making’ by first focusing exclusively on the thought sequences explicitly mentioned in the context which then serve as extracted evidence, guiding the LLM’s output generation process with greater precision and efficiency. This simple yet potent approach unlocks the full potential of chain-of-thoughts prompting, facilitating faster, more reliable, and contextually aware reasoning in LLMs. Our framework consistently achieves remarkable results across various knowledge-intensive reasoning and generation tasks, surpassing baseline approaches with state-of-the-art LLMs. For instance, (i) on the LogiQA benchmark using GPT-4, CoE achieves a new state-of-the-art accuracy of 53.8%, surpassing CoT by 18%, ToT by 11%, and CR by 9%; (ii) CoE with PaLM-2 outperforms the variable-shot performance of Gemini Ultra by 0.9 F1 points, achieving an F1 score of 83.3 on DROP. We release our prompts and outputs on these benchmarks as a new instruction tuning dataset for future research at https://huggingface.co/datasets/kagnlp/Chain-of-Evidences/.
arxiv情報
著者 | Md Rizwan Parvez |
発行日 | 2025-03-17 10:35:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google