要約
大規模な言語モデルの数学的能力は、その抽象的な推論能力を表すことができます。
このペーパーでは、InternLM2 から事前トレーニングされたものを継続する数学推論 LLM InternLM-Math を紹介し、オープンソース化します。
私たちは、思考連鎖推論、報酬モデリング、形式的推論、データ拡張、およびコードインタープリターを統一された seq2seq 形式で統合し、モデルを多用途の数学推論、検証、証明、および拡張できるように管理します。
これらの能力は、次の数学 LLM または自己反復の開発に使用できます。
InternLM-Math は、GSM8K、MATH、ハンガリー数学試験、MathBench などのさまざまな非公式および公式ベンチマークにおける、コンテキスト内学習、教師あり微調整、およびコード支援推論の設定の下で、オープンソースの最先端のパフォーマンスを実現します。
-ZH、およびMiniF2F。
事前トレーニングされたモデルは、微調整なしで MiniF2F テスト セットで 30.3 を達成しました。
さらに、数学の問題を解決するために LEAN を使用する方法を探求し、マルチタスク学習の設定の下でそのパフォーマンスを研究します。これは、数学の解決と証明のための統合プラットフォームとして LEAN を使用する可能性を示しています。
私たちのモデル、コード、データは \url{https://github.com/InternLM/InternLM-Math} でリリースされています。
要約(オリジナル)
The math abilities of large language models can represent their abstract reasoning ability. In this paper, we introduce and open-source our math reasoning LLMs InternLM-Math which is continue pre-trained from InternLM2. We unify chain-of-thought reasoning, reward modeling, formal reasoning, data augmentation, and code interpreter in a unified seq2seq format and supervise our model to be a versatile math reasoner, verifier, prover, and augmenter. These abilities can be used to develop the next math LLMs or self-iteration. InternLM-Math obtains open-sourced state-of-the-art performance under the setting of in-context learning, supervised fine-tuning, and code-assisted reasoning in various informal and formal benchmarks including GSM8K, MATH, Hungary math exam, MathBench-ZH, and MiniF2F. Our pre-trained model achieves 30.3 on the MiniF2F test set without fine-tuning. We further explore how to use LEAN to solve math problems and study its performance under the setting of multi-task learning which shows the possibility of using LEAN as a unified platform for solving and proving in math. Our models, codes, and data are released at \url{https://github.com/InternLM/InternLM-Math}.
arxiv情報
著者 | Huaiyuan Ying,Shuo Zhang,Linyang Li,Zhejian Zhou,Yunfan Shao,Zhaoye Fei,Yichuan Ma,Jiawei Hong,Kuikun Liu,Ziyi Wang,Yudong Wang,Zijian Wu,Shuaibin Li,Fengzhe Zhou,Hongwei Liu,Songyang Zhang,Wenwei Zhang,Hang Yan,Xipeng Qiu,Jiayu Wang,Kai Chen,Dahua Lin |
発行日 | 2024-02-09 11:22:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google