要約
代数単語の問題(AWP)の解決は、最近、重要な自然言語処理タスクとして浮上しています。
最近、大規模な言語モデル(LLM)は強力な数学的能力を実証しており、段階的な推論を通してLLMを導く考えられたチェーンテクニックが印象的な結果をもたらしました。
ただし、この推論能力は、計算エラーが蓄積する可能性があるLLMS自体の計算の弱点によって制限され、最終回答が誤っています。
これに対処するために、方程式の思考プログラム(詩人)を提案します。これは、段階的な推論を生成するタスクを、方程式を予測し、コードを生成するという2段階のタスクに変換し、LLMSの計算エラーを回避するために複雑な計算をPythonインタープレーターにオフロードします。
さらに、ゼロショット詩人を提案します。これは、手動で設計されたテンプレートを利用して、LLMがワンステップ解決のためにPythonコードを直接生成できるようにすることを提案します。
私たちの方法は、それぞれPENおよびALG514データセットで95.3%と98.0%の精度を達成し、新しい最先端(SOTA)を設定します。
Zero-Shot Poetは、Draw-1Kデータセットで95.5%のSOTA結果も達成しています。
要約(オリジナル)
Solving algebraic word problems (AWPs) has recently emerged as an important natural language processing task. Recently, large language models (LLMs) have demonstrated powerful mathematical capabilities, and the Chain-of-Thought technique, which guides LLMs through step-by-step reasoning, has yielded impressive results. However, this reasoning ability is limited by the computational weaknesses of LLMs themselves, where calculation errors can accumulate, leading to incorrect final answers. To address this, we propose Program of Equations Thoughts (POET), which transforms the task of generating step-by-step reasoning answers into a two-stage task of predicting equations and generating code, offloading complex computations to a Python interpreter to avoid calculation errors in LLMs. Furthermore, we propose Zero-shot POET, which utilizes a manually designed template to enable LLMs to directly generate Python code for one-step solving. Our method achieves accuracies of 95.3% and 98.0% on the PEN and ALG514 datasets, respectively, setting a new state-of-the-art (SOTA). Zero-shot POET also achieves the SOTA result of 95.5% on the DRAW-1K dataset.
arxiv情報
著者 | Yunze Lin |
発行日 | 2025-05-26 16:12:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google