KwaiYiiMath: Technical Report

要約

大規模言語モデル (LLM) の最近の進歩により、複数ステップの推論を必要とする数学的タスクであっても、さまざまな自然言語処理 (NLP) の下流タスクを処理する際に顕著な能力が実証されました。
このレポートでは、教師あり微調整 (SFT) とヒューマン フィードバックからの強化学習 (RLHF) を英語と中国語の両方の数学タスクに適用することにより、KwaiYiiBase1 の数学的推論能力を強化する KwaiYiiMath を紹介します。
一方で、モデルによって生成された問題解決プロセスの正しさを評価するために、188 例からなる小規模な中国の小学校数学テスト セット (KMath と名付けられました) も構築しました。
実証研究では、KwaiYiiMath が同様のサイズのモデルと比較して、GSM8k、CMath、および KMath でそれぞれ最先端 (SOTA) パフォーマンスを達成できることが実証されています。

要約(オリジナル)

Recent advancements in large language models (LLMs) have demonstrated remarkable abilities in handling a variety of natural language processing (NLP) downstream tasks, even on mathematical tasks requiring multi-step reasoning. In this report, we introduce the KwaiYiiMath which enhances the mathematical reasoning abilities of KwaiYiiBase1, by applying Supervised Fine-Tuning (SFT) and Reinforced Learning from Human Feedback (RLHF), including on both English and Chinese mathematical tasks. Meanwhile, we also constructed a small-scale Chinese primary school mathematics test set (named KMath), consisting of 188 examples to evaluate the correctness of the problem-solving process generated by the models. Empirical studies demonstrate that KwaiYiiMath can achieve state-of-the-art (SOTA) performance on GSM8k, CMath, and KMath compared with the similar size models, respectively.

arxiv情報

著者 Jiayi Fu,Lei Lin,Xiaoyang Gao,Pengli Liu,Zhengzong Chen,Zhirui Yang,Shengnan Zhang,Xue Zheng,Yan Li,Yuliang Liu,Xucheng Ye,Yiqiao Liao,Chao Liao,Bin Chen,Chengru Song,Junchen Wan,Zijia Lin,Fuzheng Zhang,Zhongyuan Wang,Di Zhang,Kun Gai
発行日 2023-10-19 12:34:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク