MATHSENSEI: A Tool-Augmented Large Language Model for Mathematical Reasoning

要約

ツール拡張大規模言語モデル(TALM)は、大規模言語モデル(LLM)のスキルセットを強化し、多くのタスクにおいて推論能力を向上させることが知られている。TALMは様々な質問応答ベンチマークに採用されているが、複雑な数学的推論ベンチマークにおける有効性、および知識検索と数式解法のためのツールが提供する潜在的な補完的利点は、未解決の研究課題である。本論文では、数学的推論のためのツール補強型大規模言語モデルであるMathSenseiを紹介する。知識検索ツール(Bing Web Search)、プログラム生成+実行ツール(Python)、記号式ソルバー(Wolfram-Alpha API)の相補的な利点を、数学的推論データセットでの評価を通して研究する。我々は、多様な数学分野の数学的推論を評価するための一般的なデータセットであるMATH上で網羅的なアブレーションを行う。また,ツールの順序がモデルの性能に与える影響を調べるために,有名なツールプランナーを使った実験も行う.MathSenseiは、MATHデータセットにおいて、Chain-of-Thoughtを用いたgpt-3.5-turboよりも13.5%高い精度を達成した。さらに、TALMは(GSM-8Kの)より単純な数学の単語問題にはあまり効果がなく、複雑さと必要な知識が増えるにつれて(AQuA、MMLU-Math、MATHのより高レベルの複雑な問題で)効果が高まることが観察された。コードとデータはhttps://github.com/Debrup-61/MathSensei。

要約(オリジナル)

Tool-augmented Large Language Models (TALMs) are known to enhance the skillset of large language models (LLMs), thereby, leading to their improved reasoning abilities across many tasks. While, TALMs have been successfully employed in different question-answering benchmarks, their efficacy on complex mathematical reasoning benchmarks, and the potential complementary benefits offered by tools for knowledge retrieval and mathematical equation solving are open research questions. In this work, we present MathSensei, a tool-augmented large language model for mathematical reasoning. We study the complementary benefits of the tools – knowledge retriever (Bing Web Search), program generator + executor (Python), and symbolic equation solver (Wolfram-Alpha API) through evaluations on mathematical reasoning datasets. We perform exhaustive ablations on MATH, a popular dataset for evaluating mathematical reasoning on diverse mathematical disciplines. We also conduct experiments involving well-known tool planners to study the impact of tool sequencing on the model performance. MathSensei achieves 13.5% better accuracy over gpt-3.5-turbo with Chain-of-Thought on the MATH dataset. We further observe that TALMs are not as effective for simpler math word problems (in GSM-8K), and the benefit increases as the complexity and required knowledge increases (progressively over AQuA, MMLU-Math, and higher level complex questions in MATH). The code and data are available at https://github.com/Debrup-61/MathSensei.

arxiv情報

著者 Debrup Das,Debopriyo Banerjee,Somak Aditya,Ashish Kulkarni
発行日 2024-04-03 15:22:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク