MathChat: Converse to Tackle Challenging Math Problems with LLM Agents

要約

数学的問題に対処するために大規模言語モデル (LLM) を採用することは、数多くの科学および工学分野にわたって自然言語で表現される数学的問題が豊富にあることを考慮すると、興味深い研究努力です。
LLM は、その汎用化された機能により、さまざまなタスク用の AI エージェントを構築するための基礎モデルとして使用されます。
この論文では、会話を通じて数学の問題を解決するために LLM エージェントを利用する有効性を研究します。
私たちは、数学の問題のために設計された会話型問題解決フレームワークである MathChat を提案します。
MathChat は、LLM エージェントと、ツールの実行と追加のガイダンスを担当するユーザー プロキシ エージェントで構成されます。
この相乗効果により、エージェントが対話して問題を解決する、協力的な問題解決プロセスが促進されます。
MATHデータセットから高校競技の難しい問題を評価します。
Python を利用することで、MathChat が以前のツールを使用したプロンプト方法をさらに 6% 改善できることを示します。

要約(オリジナル)

Employing Large Language Models (LLMs) to address mathematical problems is an intriguing research endeavor, considering the abundance of math problems expressed in natural language across numerous science and engineering fields. LLMs, with their generalized ability, are used as a foundation model to build AI agents for different tasks. In this paper, we study the effectiveness of utilizing LLM agents to solve math problems through conversations. We propose MathChat, a conversational problem-solving framework designed for math problems. MathChat consists of an LLM agent and a user proxy agent which is responsible for tool execution and additional guidance. This synergy facilitates a collaborative problem-solving process, where the agents engage in a dialogue to solve the problems. We perform evaluation on difficult high school competition problems from the MATH dataset. Utilizing Python, we show that MathChat can further improve previous tool-using prompting methods by 6%.

arxiv情報

著者 Yiran Wu,Feiran Jia,Shaokun Zhang,Hangyu Li,Erkang Zhu,Yue Wang,Yin Tat Lee,Richard Peng,Qingyun Wu,Chi Wang
発行日 2024-06-28 10:26:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, stat.ML パーマリンク