要約
これまでの研究では通常、大規模な言語モデルは、計算ツールを使用せずに算術演算、特に 8 桁を超える乗算や小数や分数を含む演算を正確に実行できないと想定されていました。
この文書は、この誤解に異議を唱えることを目的としています。
十分なトレーニング データがあれば、20 億パラメータの言語モデルは、データ漏洩なく、ほぼ 100% の精度で複数桁の算術演算を正確に実行でき、GPT-4 (複数桁の乗算精度はわずか 4.3%) を大幅に上回ります。
また、追加のマルチステップ算術演算とテキストで記述された数学問題を含むデータセットで GLM-10B から微調整された MathGLM が、5,000 サンプルの中国語数学問題テスト セットで GPT-4 と同様のパフォーマンスを達成することも実証します。
私たちのコードとデータは https://github.com/THUDM/MathGLM で公開されています。
要約(オリジナル)
Previous studies have typically assumed that large language models are unable to accurately perform arithmetic operations, particularly multiplication of >8 digits, and operations involving decimals and fractions, without the use of calculator tools. This paper aims to challenge this misconception. With sufficient training data, a 2 billion-parameter language model can accurately perform multi-digit arithmetic operations with almost 100% accuracy without data leakage, significantly surpassing GPT-4 (whose multi-digit multiplication accuracy is only 4.3%). We also demonstrate that our MathGLM, fine-tuned from GLM-10B on a dataset with additional multi-step arithmetic operations and math problems described in text, achieves similar performance to GPT-4 on a 5,000-samples Chinese math problem test set. Our code and data are public at https://github.com/THUDM/MathGLM.
arxiv情報
著者 | Zhen Yang,Ming Ding,Qingsong Lv,Zhihuan Jiang,Zehai He,Yuyi Guo,Jinfeng Bai,Jie Tang |
発行日 | 2023-09-12 11:01:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google