Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems

要約

思考連鎖 (CoT) プロンプトにより、さまざまな推論タスクにわたる大規模言語モデル (LLM) のパフォーマンスが向上しました。
しかし、CoT は、通常、意味上の誤解、計算エラー、ステップ欠落エラーという 3 つの落とし穴に悩まされるため、複雑な数学の文章問題を扱うには依然として不十分です。
先行研究では、計算エラーとステップ欠落エラーに対処することが含まれていますが、LLM のパフォーマンスを制限する主な要因である意味上の誤解エラーは無視されています。
この目的を達成するために、意味上の誤解に対処することで LLM の数学の問題解決能力を向上させる、シンプルだが効果的な方法、すなわち問題の深層理解 (DUP) を提案します。
私たちの手法の核心は、LLM が問題を深く理解し、より良い推論に使用される重要な問題解決情報を抽出することを奨励することです。
10 個の多様な推論ベンチマークに関する広範な実験により、私たちの DUP 手法が他の対応する手法よりも常に大幅に優れていることがわかりました。
さらに心強いのは、DUP が GSM8K ベンチマークでゼロショット設定で 97.1% の精度という新しい SOTA 結果を達成したことです。

要約(オリジナル)

Chain-of-Thought (CoT) prompting has enhanced the performance of Large Language Models (LLMs) across various reasoning tasks. However, CoT still falls short in dealing with complex math word problems, as it usually suffers from three pitfalls: semantic misunderstanding errors, calculation errors and step-missing errors. Prior studies involve addressing the calculation errors and step-missing errors, but neglect the semantic misunderstanding errors, which is the major factor limiting the LLMs’ performance. To this end, we propose a simple-yet-effective method, namely Deeply Understanding the Problems (DUP), to improve the LLMs’ math problem-solving ability by addressing semantic misunderstanding errors. The core of our method is to encourage the LLMs to deeply understand the problems and extract the key problem-solving information used for better reasoning. Extensive experiments on 10 diverse reasoning benchmarks show that our DUP method consistently outperforms the other counterparts by a large margin. More encouragingly, DUP achieves a new SOTA result on the GSM8K benchmark, with an accuracy of 97.1% under zero-shot setting.

arxiv情報

著者 Qihuang Zhong,Kang Wang,Ziyang Xu,Juhua Liu,Liang Ding,Bo Du,Dacheng Tao
発行日 2024-05-29 15:27:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク