ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline

要約

大規模言語モデル(LLM)は、人間の言語の優れた習得能力を示しているが、数学的な問題解決を必要とする実世界のアプリケーションではまだ苦戦している。LLMの数学能力を向上させるための多くの戦略やデータセットが開発されているが、配備されたLLMシステムにおいて言語能力と数学能力の両方を同時に維持・向上させることは依然として課題である。まず、LLM自身から一般的な数学的批評モデルを学習し、フィードバック信号を提供する。次に、データ収集のためにLLM自身の世代に対する拒否的な微調整と直接的な嗜好最適化を順次採用する。ChatGLM3-32Bに基づき、我々はアカデミックなデータセットと我々が新たに作成したチャレンジングなデータセットであるMathUserEvalの両方で一連の実験を行った。その結果、我々のパイプラインは、LLMの言語能力を向上させながら、LLMの数学的問題解決を大幅に強化し、2倍以上の大きさのLLMを凌駕することがわかった。ChatGLMfootnote{url{https://chatglm.cn}}は、オンラインサービスLLMである。関連する評価データセットとスクリプトは♪url{https://github.com/THUDM/ChatGLM-Math}で公開されています。

要約(オリジナル)

Large language models (LLMs) have shown excellent mastering of human language, but still struggle in real-world applications that require mathematical problem-solving. While many strategies and datasets to enhance LLMs’ mathematics are developed, it remains a challenge to simultaneously maintain and improve both language and mathematical capabilities in deployed LLM systems.In this work, we tailor the Self-Critique pipeline, which addresses the challenge in the feedback learning stage of LLM alignment. We first train a general Math-Critique model from the LLM itself to provide feedback signals. Then, we sequentially employ rejective fine-tuning and direct preference optimization over the LLM’s own generations for data collection. Based on ChatGLM3-32B, we conduct a series of experiments on both academic and our newly created challenging dataset, MathUserEval. Results show that our pipeline significantly enhances the LLM’s mathematical problem-solving while still improving its language ability, outperforming LLMs that could be two times larger. Related techniques have been deployed to ChatGLM\footnote{\url{https://chatglm.cn}}, an online serving LLM. Related evaluation dataset and scripts are released at \url{https://github.com/THUDM/ChatGLM-Math}.

arxiv情報

著者 Yifan Xu,Xiao Liu,Xinghan Liu,Zhenyu Hou,Yueyan Li,Xiaohan Zhang,Zihan Wang,Aohan Zeng,Zhengxiao Du,Wenyi Zhao,Jie Tang,Yuxiao Dong
発行日 2024-04-03 17:51:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク