Backward Reasoning in Large Language Models for Verification

要約

Chain-of-Though (CoT) プロンプトは、さまざまな推論タスクで有望なパフォーマンスを示しています。
最近、Self-Consistency \citep{wang2023selfconsistency} は、最も多くの票を獲得した回答を選択しながら、異なる回答につながる可能性のあるさまざまな推論チェーンをサンプリングすることを提案しています。
この論文では、回答候補を検証する際に後方推論を使用する新しい方法を提案します。
質問内のトークンを ${\bf x}$ でマスクし、\textit{単純なテンプレート} によって回答候補が提供された場合、つまり “\textit{\textbf{If
上記の質問の答えは \{答えの候補\} であることがわかっています。未知の変数 ${\bf x}$?}} の値は何ですか? 直観的に、LLM は、
候補の回答が正しい場合。
さらに、回答候補の確率を推定するために前方推論と後方推論を組み合わせる FOBAR を提案します。
私たちは 6 つのデータセットと 3 つの LLM に対して広範な実験を行っています。
実験結果は、FOBAR がさまざまな推論ベンチマークで最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

Chain-of-Though (CoT) prompting has shown promising performance in various reasoning tasks. Recently, Self-Consistency \citep{wang2023selfconsistency} proposes to sample a diverse set of reasoning chains which may lead to different answers while the answer that receives the most votes is selected. In this paper, we propose a novel method to use backward reasoning in verifying candidate answers. We mask a token in the question by ${\bf x}$ and ask the LLM to predict the masked token when a candidate answer is provided by \textit{a simple template}, i.e., “\textit{\textbf{If we know the answer of the above question is \{a candidate answer\}, what is the value of unknown variable ${\bf x}$?}}” Intuitively, the LLM is expected to predict the masked token successfully if the provided candidate answer is correct. We further propose FOBAR to combine forward and backward reasoning for estimating the probability of candidate answers. We conduct extensive experiments on six data sets and three LLMs. Experimental results demonstrate that FOBAR achieves state-of-the-art performance on various reasoning benchmarks.

arxiv情報

著者 Weisen Jiang,Han Shi,Longhui Yu,Zhengying Liu,Yu Zhang,Zhenguo Li,James T. Kwok
発行日 2023-08-15 13:19:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク