DotaMath: Decomposition of Thought with Code Assistance and Self-correction for Mathematical Reasoning

要約

大規模言語モデル (LLM) は、単純な数学問題の処理において目覚ましい進歩を遂げていますが、より困難で複雑な数学的タスクには依然として苦戦しています。
このペーパーでは、コード支援による思考の分解と数学的推論の自己修正を使用する、DotaMath と呼ばれる一連の LLM を紹介します。
DotaMath モデルは、複雑な数学的タスクをより単純な論理サブタスクに分解し、コードを活用してこれらのサブタスクを解決し、コード インタプリタからきめ細かいフィードバックを取得し、内省と修正を行うことで、複雑な数学的タスクに取り組みます。
多様なインタラクティブなツール使用の軌跡に注釈を付け、GSM8K および MATH データセットでクエリ進化を採用することで、574K のクエリと応答のペアを含む DotaMathQA と呼ばれる命令微調整データセットを生成します。
DotaMathQA で模倣学習を使用して一連のベース LLM をトレーニングし、その結果、さまざまなドメイン内およびドメイン外のベンチマークにわたってオープンソース LLM と比較して顕著なパフォーマンスを達成する DotaMath モデルが得られます。
特に、DotaMath-deepseek-7B は、競合する MATH データセットで 64.8%、GSM8K で 86.7% という優れたパフォーマンスを示しています。
さらに、DotaMath-deepseek-7B は、一連のドメイン内およびドメイン外のベンチマークで強力な競争力を維持しています (平均 80.1%)。
将来的には、DotaMath パラダイムが複雑な数学的問題に対処するための新しい道を開くと予想されます。
私たちのコードは https://github.com/ChengpengLi1003/DotaMath で公開されています。

要約(オリジナル)

Large language models (LLMs) have made impressive progress in handling simple math problems, yet they still struggle with more challenging and complex mathematical tasks. In this paper, we introduce a series of LLMs that employs the Decomposition of thought with code assistance and self-correction for mathematical reasoning, dubbed as DotaMath. DotaMath models tackle complex mathematical tasks by decomposing them into simpler logical subtasks, leveraging code to solve these subtasks, obtaining fine-grained feedback from the code interpreter, and engaging in self-reflection and correction. By annotating diverse interactive tool-use trajectories and employing query evolution on GSM8K and MATH datasets, we generate an instruction fine-tuning dataset called DotaMathQA with 574K query-response pairs. We train a series of base LLMs using imitation learning on DotaMathQA, resulting in DotaMath models that achieve remarkable performance compared to open-source LLMs across various in-domain and out-of-domain benchmarks. Notably, DotaMath-deepseek-7B showcases an outstanding performance of 64.8% on the competitive MATH dataset and 86.7% on GSM8K. Besides, DotaMath-deepseek-7B maintains strong competitiveness on a series of in-domain and out-of-domain benchmarks (Avg. 80.1%). Looking forward, we anticipate that the DotaMath paradigm will open new pathways for addressing intricate mathematical problems. Our code is publicly available at https://github.com/ChengpengLi1003/DotaMath.

arxiv情報

著者 Chengpeng Li,Guanting Dong,Mingfeng Xue,Ru Peng,Xiang Wang,Dayiheng Liu
発行日 2024-07-17 13:13:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク