要約
数学的推論は言語モデル(LM)に必要な能力であると考えられている。最近の研究では、大規模な言語モデル(LM)が数学の問題を解く際に素晴らしい性能を発揮することが示されている。この成功は、複雑な問題をステップバイステップの推論チェーンに分解する能力、すなわち、思考連鎖(CoT)推論能力に起因しているが、このような能力は、豊富なパラメータを持つモデルでのみ出現するようだ。本研究では、比較的小さなLMに多段階の推論能力を持たせる方法を検討する。我々は、Multi-step Arithmetic Taskの略であるMsATという合成データセットでLMを継続的に事前学習させることにより、そのような能力を注入することを提案する。4つの算数単語問題データセットを用いた実験により、LMの算数推論能力を向上させる提案手法の有効性が示された。
要約(オリジナル)
Mathematical reasoning is regarded as a necessary ability for Language Models (LMs). Recent works demonstrate large LMs’ impressive performance in solving math problems. The success is attributed to their Chain-of-Thought (CoT) reasoning abilities, i.e., the ability to decompose complex questions into step-by-step reasoning chains, but such ability seems only to emerge from models with abundant parameters. This work investigates how to incorporate relatively small LMs with the capabilities of multi-step reasoning. We propose to inject such abilities by continually pre-training LMs on a synthetic dataset MsAT, which stands for Multi-step Arithmetic Task. Our experiments on four math word problem datasets show the effectiveness of the proposed method in enhancing LMs’ math reasoning abilities.
arxiv情報
著者 | Tianduo Wang,Wei Lu |
発行日 | 2023-06-02 17:29:22+00:00 |
arxivサイト | arxiv_id(pdf) |