要約
数学の文章題 (MWP) を解くには、多くの場合無関係な条件が含まれる特定の問題の説明に基づいて推論パスを生成する必要があります。
既存の思考連鎖 (CoT) プロンプト手法は、MWP を解決するための大規模言語モデル (LLM) の複数ステップの推論能力を引き出しました。
しかし、無関係な条件にひどく混乱し、精度が低くなってしまいました。
この論文では、LLM に無関係な条件を特定して無視するように指示する I$^3$C という新しいアプローチを提案します。
これは、質問と意味論的な関連性が低い、無関係な条件候補のセットを識別します。
次に、LLM に無関係な条件を確認するよう求めます。
最後に、混乱を避け、推論経路を改善するために、関連する条件と無関係な条件の検証を LLM に指示します。
さらに、数回の推論で I$^3$C を強化するためのデモンストレーションとして (問題、推論パス) のペアを選択することを提案します。
私たちは、意味的関連性の測定に基づいて最も混乱を招く問題を選択する I$^3$C-Select を開発します。
私たちは 8 つの MWP データセットに対して広範な実験を行っています。
I$^3$C は、MWP を解くパフォーマンスを向上させるために、任意の CoT プロンプト手法と組み合わせることができます。
特に、GPT-3.5-Turbo と I$^3$C-Select を使用すると、GSM-IC2-1K と GSM-ICM-1K でそれぞれ 96.0 と 94.1 の精度を達成し、現状のパフォーマンスを大幅に上回りました。
芸術の少数ショットプロンプト法 +11.7 および +11.1 による Complex-CoT。
私たちの実装は https://wzy6642.github.io/I3C.github.io/ で公開されています。
要約(オリジナル)
Math word problem (MWP) solving requires generating a reasoning path based on a given problem description that often contains irrelevant conditions. Existing chain-of-thought (CoT) prompting methods elicited multi-step reasoning abilities of large language models (LLMs) to solve MWPs. However, they were seriously confused by the irrelevant conditions, resulting in low accuracy. In this paper, we propose a novel approach named I$^3$C that instructs LLMs to identify and ignore irrelevant conditions. It identifies a set of irrelevant condition candidates that have a weak semantic relevance with the question. Then it prompts LLMs to verify the irrelevant conditions. Lastly it instructs the LLMs with the verification on relevant and irrelevant conditions to avoid confusion and improve reasoning paths. Moreover, we propose to select (problem, reasoning paths) pairs as demonstrations to enhance I$^3$C with few-shot reasoning. We develop I$^3$C-Select that selects the most confusing problems based on the semantic relevance measurement. We conduct extensive experiments on eight MWP datasets. I$^3$C can be combined with any CoT prompting methods to improve the performance of solving MWPs. Notably, with GPT-3.5-Turbo and I$^3$C-Select, we achieve an accuracy of 96.0 and 94.1 on GSM-IC2-1K and GSM-ICM-1K, respectively, significantly outperforming the state-of-the-art few-shot prompting method Complex-CoT by +11.7 and +11.1. Our implementation is made publicly available at https://wzy6642.github.io/I3C.github.io/.
arxiv情報
著者 | Zhenyu Wu,Chao Shen,Meng Jiang |
発行日 | 2024-03-19 14:07:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google