要約
大規模言語モデル (LLM) に基づいた最新の質問応答 (QA) および推論アプローチでは、一般に、思考連鎖 (CoT) などのプロンプト手法が使用されます。これは、結果として生成される生成物が質問空間に対してより詳細な探索と推論を行うことを想定しており、
範囲。
ただし、このような方法では、モデルによって生成される推論の中間連鎖に忠実な出力を生成するのが困難です。
スペクトルの対極では、Faithful CoT (F-CoT) などのニューロシンボリック手法では、LLM と外部シンボリック ソルバーを組み合わせることが提案されています。
このようなアプローチは高度な忠実性を誇りますが、通常はコード生成用にトレーニングされたモデルを必要とし、曖昧なタスクや厳密に形式化するのが難しいタスクに苦労します。
$\textbf{F}$aithful $\textbf{L}$ogic-$\textbf{A}$ided $\textbf{R}$easoning と $\textbf{E}$xploration ($\textbf{FLARE) を導入します
}$)、タスク分解を使用して問題空間を横断するための新しい解釈可能なアプローチ。
LLM を使用してソリューションを計画し、ロジック プログラミング コードを使用してクエリを事実と述語にソフト形式化し、定義された空間にわたる徹底的なマルチホップ検索を使用してそのコードの実行をシミュレートします。
私たちの方法では、推論プロセスの忠実度を計算することができます。
生成されたコードを解析し、外部ソルバーに依存せずにマルチホップ検索のステップを分析します。
私たちの手法は、$\mathbf{9}$ の多様な推論ベンチマークのうち $\mathbf{7}$ で SOTA の結果を達成します。
また、モデルの忠実性が全体的なパフォーマンスと正の相関があることを示し、$\textbf{FLARE}$ を使用すると、マルチホップ検索中に最適な推論を使用して正解に十分な決定要因を正確に特定し、正解に導くことができることも実証します。
要約(オリジナル)
Modern Question Answering (QA) and Reasoning approaches based on Large Language Models (LLMs) commonly use prompting techniques, such as Chain-of-Thought (CoT), assuming the resulting generation will have a more granular exploration and reasoning over the question space and scope. However, such methods struggle with generating outputs that are faithful to the intermediate chain of reasoning produced by the model. On the other end of the spectrum, neuro-symbolic methods such as Faithful CoT (F-CoT) propose to combine LLMs with external symbolic solvers. While such approaches boast a high degree of faithfulness, they usually require a model trained for code generation and struggle with tasks that are ambiguous or hard to formalise strictly. We introduce $\textbf{F}$aithful $\textbf{L}$ogic-$\textbf{A}$ided $\textbf{R}$easoning and $\textbf{E}$xploration ($\textbf{FLARE}$), a novel interpretable approach for traversing the problem space using task decompositions. We use the LLM to plan a solution, soft-formalise the query into facts and predicates using a logic programming code and simulate that code execution using an exhaustive multi-hop search over the defined space. Our method allows us to compute the faithfulness of the reasoning process w.r.t. the generated code and analyse the steps of the multi-hop search without relying on external solvers. Our methods achieve SOTA results on $\mathbf{7}$ out of $\mathbf{9}$ diverse reasoning benchmarks. We also show that model faithfulness positively correlates with overall performance and further demonstrate that $\textbf{FLARE}$ allows pinpointing the decisive factors sufficient for and leading to the correct answer with optimal reasoning during the multi-hop search.
arxiv情報
著者 | Erik Arakelyan,Pasquale Minervini,Pat Verga,Patrick Lewis,Isabelle Augenstein |
発行日 | 2025-01-21 14:57:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google