Fill in the Blank: Exploring and Enhancing LLM Capabilities for Backward Reasoning in Math Word Problems

要約

前方推論(問題が与えられたときに答えを見つけること)は最近の文献で広く研究されているが、後方推論は比較的未解明である。我々は、数学的な質問とその答えが与えられ、その質問からいくつかの詳細が省略されている場合、LLMは欠落している情報を効果的に取り出すことができるのか? 本論文では、数学の単語問題に対する後方推論タスクを正式に定義し、このタスクを評価するために3つのデータセットを修正する:GSM8k、SVAMP、MultiArithである。その結果、4つのSOTA LLM(GPT4、GPT3.5、PaLM-2、LLaMa-2)において、後ろ向き推論のモデルの精度が、前向き推論に比べて大幅に低下することがわかった。この課題特有の形式を利用し、パフォーマンスを向上させる3つの新しい手法を提案する:Rephraseは与えられた問題を前方推論問題に再定式化し、PAL-Toolsはプログラム支援LLMのアイデアを組み合わせ、外部ソルバーが解くことができる方程式のセットを生成する。最後に、我々の基本手法はそれぞれ異なる問題集合を正しく解くものであることを理解し、検証者の助けを借りてこれらの基本手法のアンサンブルを作成するための新しいベイズ定式化を提案し、精度を大幅に向上させる。広範な実験により、我々の手法が後方推論タスクにおけるLLMの性能を順次向上させ、最終的なアンサンブルベースの手法は、思考の連鎖のような標準的なプロンプト手法を用いた生のLLMと比較して、大幅な性能向上をもたらすことが実証された。

要約(オリジナル)

While forward reasoning (i.e. find the answer given the question) has been explored extensively in the recent literature, backward reasoning is relatively unexplored. We examine the backward reasoning capabilities of LLMs on Math Word Problems (MWPs): given a mathematical question and its answer, with some details omitted from the question, can LLMs effectively retrieve the missing information? In this paper, we formally define the backward reasoning task on math word problems and modify three datasets to evaluate this task: GSM8k, SVAMP and MultiArith. Our findings show a significant drop in the accuracy of models on backward reasoning compared to forward reasoning across four SOTA LLMs (GPT4, GPT3.5, PaLM-2, and LLaMa-2). Utilizing the specific format of this task, we propose three novel techniques that improve performance: Rephrase reformulates the given problem into a forward reasoning problem, PAL-Tools combines the idea of Program-Aided LLMs to produce a set of equations that can be solved by an external solver, and Check your Work exploits the availability of natural verifier of high accuracy in the forward direction, interleaving solving and verification steps. Finally, realizing that each of our base methods correctly solves a different set of problems, we propose a novel Bayesian formulation for creating an ensemble over these base methods aided by a verifier to further boost the accuracy by a significant margin. Extensive experimentation demonstrates that our techniques successively improve the performance of LLMs on the backward reasoning task, with the final ensemble-based method resulting in a substantial performance gain compared to the raw LLMs with standard prompting techniques such as chain-of-thought.

arxiv情報

著者 Aniruddha Deb,Neeva Oza,Sarthak Singla,Dinesh Khandelwal,Dinesh Garg,Parag Singla
発行日 2023-10-03 12:03:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG, I.2.3 パーマリンク