要約
大規模な言語モデルは、さまざまな言語タスクにおいて大幅な進歩を遂げていますが、依然として複雑な数学には苦労しています。
この論文では、自然言語推論を外部ツール (計算ライブラリやシンボリック ソルバーなど) の利用とシームレスに統合し、それによって言語の分析能力を融合することで、困難な数学的問題を解決するように設計された一連のツール統合推論エージェントである ToRA を提案します。
そしてツールの計算効率。
ToRA をトレーニングするために、数学的データセット上でインタラクティブなツール使用の軌跡をキュレーションし、アノテーションに模倣学習を適用し、モデルの推論動作をさらに洗練するための出力空間整形を提案します。
その結果、ToRA モデルは、すべてのスケールにわたる 10 個の数理推論データセットでオープンソース モデルを大幅に上回り、平均 13% ~ 19% の絶対的な改善を実現しました。
特に、ToRA-7B は競合レベルのデータセット MATH で 44.6% に達し、最高のオープンソース モデルである WizardMath-70B を絶対値 22% 上回っています。
ToRA-34B は、MATH で 50% を超える精度を達成した最初のオープンソース モデルでもあり、GPT-4 の CoT 結果を大幅に上回り、プログラムで問題を解決する GPT-4 と競合します。
さらに、数学的推論のためのツール相互作用の利点と残された課題の包括的な分析を実施し、将来の研究に貴重な洞察を提供します。
要約(オリジナル)
Large language models have made significant progress in various language tasks, yet they still struggle with complex mathematics. In this paper, we propose ToRA a series of Tool-integrated Reasoning Agents designed to solve challenging mathematical problems by seamlessly integrating natural language reasoning with the utilization of external tools (e.g., computation libraries and symbolic solvers), thereby amalgamating the analytical prowess of language and the computational efficiency of tools. To train ToRA, we curate interactive tool-use trajectories on mathematical datasets, apply imitation learning on the annotations, and propose output space shaping to further refine models’ reasoning behavior. As a result, ToRA models significantly outperform open-source models on 10 mathematical reasoning datasets across all scales with 13%-19% absolute improvements on average. Notably, ToRA-7B reaches 44.6% on the competition-level dataset MATH, surpassing the best open-source model WizardMath-70B by 22% absolute. ToRA-34B is also the first open-source model that achieves an accuracy exceeding 50% on MATH, which significantly outperforms GPT-4’s CoT result, and is competitive with GPT-4 solving problems with programs. Additionally, we conduct a comprehensive analysis of the benefits and remaining challenges of tool interaction for mathematical reasoning, providing valuable insights for future research.
arxiv情報
著者 | Zhibin Gou,Zhihong Shao,Yeyun Gong,yelong shen,Yujiu Yang,Minlie Huang,Nan Duan,Weizhu Chen |
発行日 | 2023-09-29 17:59:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google