Modeling Complex Mathematical Reasoning via Large Language Model based MathAgent

要約

大規模言語モデル (LLM) は、ステートメントを解析し、ドメイン知識を関連付け、複合論理的推論を実行し、中間理論的根拠を統合するための包括的な能力を必要とする複雑な数学的問題を解決するという課題に直面しています。
LLM にとって、これらすべての問題に一度取り組むのは困難である可能性があり、そのため生成時に混乱が生じる可能性があります。
この研究では、数学的推論プロセスの綿密な分解とモデル化によって、エージェントを使用して LLM を強化する可能性を探ります。
具体的には、数学的解決の正式な記述を提案し、$\bf{P}$lanner-$\bf{R}$easoner-$\bf{E}$xecutor という名前のエージェントベースのゼロショット フレームワークを使用して LLM を拡張します。
-$\bf{R}$エフレクター (PRER)。
さらに、異なる粒度と方向性のアクションのプールを介して論理形式と固有の関係を定義する 2 つの MathAgent を提供および実装します。MathAgent-M はそのアクションを LLM に適応させ、MathAgent-H は人類に合わせます。
miniF2F と MATH の実験では PRER と提案された MathAgent の有効性が実証され、MiniF2F では $12.3\%$($53.9\%\xrightarrow{}66.2\%$)、$9.2\%$ ($49.8\%\xrightarrow) の増加を達成しました。
MATH では {}59.0\%$)、GPT-4 に対する MATH のレベル 5 問題では $13.2\%$($23.2\%\xrightarrow{}35.4\%$) です。
さらなる分析結果は、エージェントとしての LLM の動作の悪用に関するより洞察に富んだ視点を提供します。

要約(オリジナル)

Large language models (LLMs) face challenges in solving complex mathematical problems that require comprehensive capacities to parse the statements, associate domain knowledge, perform compound logical reasoning, and integrate the intermediate rationales. Tackling all these problems once could be arduous for LLMs, thus leading to confusion in generation. In this work, we explore the potential of enhancing LLMs with agents by meticulous decomposition and modeling of mathematical reasoning process. Specifically, we propose a formal description of the mathematical solving and extend LLMs with an agent-based zero-shot framework named $\bf{P}$lanner-$\bf{R}$easoner-$\bf{E}$xecutor-$\bf{R}$eflector (PRER). We further provide and implement two MathAgents that define the logical forms and inherent relations via a pool of actions in different grains and orientations: MathAgent-M adapts its actions to LLMs, while MathAgent-H aligns with humankind. Experiments on miniF2F and MATH have demonstrated the effectiveness of PRER and proposed MathAgents, achieving an increase of $12.3\%$($53.9\%\xrightarrow{}66.2\%$) on the MiniF2F, $9.2\%$ ($49.8\%\xrightarrow{}59.0\%$) on MATH, and $13.2\%$($23.2\%\xrightarrow{}35.4\%$) for level-5 problems of MATH against GPT-4. Further analytical results provide more insightful perspectives on exploiting the behaviors of LLMs as agents.

arxiv情報

著者 Haoran Liao,Qinyi Du,Shaohua Hu,Hao He,Yanyan Xu,Jidong Tian,Yaohui Jin
発行日 2023-12-14 13:33:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク