Forward-Backward Reasoning in Large Language Models for Mathematical Verification

要約

大規模言語モデル (LLM) での思考連鎖 (CoT) プロンプトは、数学的推論タスクで有望なパフォーマンスを示しています。
最近、Self-Consistency は、さまざまな答えを持つ多様な推論チェーンをサンプリングし、多数決によって答えを選択します。
効果的ではありますが、より多くの推論チェーンをサンプリングしてもパフォーマンスをさらに向上させることはできません。
この問題に対処するために、後方推論を回答検証に統合することを提案します。
まず、質問内の数値を ${\bf x}$ でマスクします。
次に LLM は、テンプレートに埋め込まれた回答候補 $A$ を使用してマスクされた数値を予測するように求められます。「上記の質問に対する答えが $\{A\}$ であることがわかっている場合、未知の変数 $ の値は何ですか?」
{\bf x}$?” 提供された候補の答えが正しければ、LLM はマスクされた数値を正しく予測することが期待されます。
パフォーマンスをさらに向上させるために、回答候補を検証するための前方推論と後方推論を組み合わせる FOBAR (FOrward-BAckward Reasoning) を提案します。
実験は 6 つの標準数学データ セットと 3 つの LLM (text-davinci-003、GPT-3.5-Turbo、GPT-4) で実行されます。
結果は、FOBAR が最先端のパフォーマンスを達成していることを示しています。
特に、FOBAR は、前方推論のみを使用する Self-Consistency よりも優れたパフォーマンスを示し、前方推論と前方推論を組み合わせた方が優れていることを示しています。
また、既存の検証方法よりも優れたパフォーマンスを示し、後方推論での単純なテンプレートと提案された組み合わせの使用の有効性を検証します。

要約(オリジナル)

Chain-of-Thought (CoT) prompting in large language models (LLMs) has shown promising performance on mathematical reasoning tasks. Recently, Self-Consistency samples a diverse set of reasoning chains with different answers and chooses the answer by majority voting. Though effective, its performance cannot be further improved by sampling more reasoning chains. To address this problem, we propose to integrate backward reasoning into answer verification. We first mask a number in the question by ${\bf x}$. The LLM is then asked to predict the masked number with a candidate answer $A$ embedded in the template: “If we know the answer to the above question is $\{A\}$, what is the value of unknown variable ${\bf x}$?” The LLM is expected to predict the masked number successfully if the provided candidate answer is correct. To further improve performance, we propose FOBAR (FOrward-BAckward Reasoning) to combine forward and backward reasoning for verifying candidate answers. Experiments are performed on six standard mathematical data sets and three LLMs (text-davinci-003, GPT-3.5-Turbo, GPT-4). Results show that FOBAR achieves state-of-the-art performance. In particular, FOBAR outperforms Self-Consistency which uses forward reasoning alone, demonstrating that combining forward and forward reasoning is better. It also outperforms existing verification methods, verifying the effectiveness of using the simple template in backward reasoning and the proposed combination.

arxiv情報

著者 Weisen Jiang,Han Shi,Longhui Yu,Zhengying Liu,Yu Zhang,Zhenguo Li,James T. Kwok
発行日 2023-09-29 15:06:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク