Query and Response Augmentation Cannot Help Out-of-domain Math Reasoning Generalization

要約

大規模言語モデル (LLM) を使用した数学推論では、クエリの進化と多様な推論パスによるデータ拡張の微調整が効果的であることが経験的に検証されており、オープンソースの LLM と最先端の独自の LLM との間のギャップが大幅に狭まります。
この論文では、数学的推論におけるそのようなデータ拡張の調査を実施し、次のことに答えることを目的としています。(1) データ拡張のどの戦略がより効果的であるか。
(2) 拡張データの量とモデルのパフォーマンスの間のスケーリング関係は何ですか。
(3) データ拡張は、領域外の数学的推論タスクへの一般化を奨励できるか?
この目的を達成するために、GSM8K からのクエリを複雑化および多様化し、複数の推論パスをサンプリングすることにより、新しいデータセット AugGSM8K を作成します。
AugGSM8K のサブセットを微調整することで、MuggleMath と呼ばれる一連の LLM を取得しました。
MuggleMath は、GSM8K で新しい最先端技術を実質的に達成しています (7B スケールで 54% から 68.4%、13B スケールで 63.9% から 74.0%)。
MuggleMath のパフォーマンスと拡張データの量の間には、対数線形の関係が示されています。
また、MuggleMath はドメイン外の数学的推論を MATH に一般化するのに弱いこともわかりました。
これは、AugGSM8K と MATH の間のクエリ分布の違いに起因しており、単一のベンチマークでの拡張が全体的な数学的推論のパフォーマンスに役立たないことを示唆しています。
コードと AugGSM8K は https://github.com/OFA-Sys/gsm8k-ScRel にアップロードされます。

要約(オリジナル)

In math reasoning with large language models (LLMs), fine-tuning data augmentation by query evolution and diverse reasoning paths is empirically verified effective, profoundly narrowing the gap between open-sourced LLMs and cutting-edge proprietary LLMs. In this paper, we conduct an investigation for such data augmentation in math reasoning and are intended to answer: (1) What strategies of data augmentation are more effective; (2) What is the scaling relationship between the amount of augmented data and model performance; and (3) Can data augmentation incentivize generalization to out-of-domain mathematical reasoning tasks? To this end, we create a new dataset, AugGSM8K, by complicating and diversifying the queries from GSM8K and sampling multiple reasoning paths. We obtained a series of LLMs called MuggleMath by fine-tuning on subsets of AugGSM8K. MuggleMath substantially achieves new state-of-the-art on GSM8K (from 54% to 68.4% at the scale of 7B, and from 63.9% to 74.0% at the scale of 13B). A log-linear relationship is presented between MuggleMath’s performance and the amount of augmented data. We also find that MuggleMath is weak in out-of-domain math reasoning generalization to MATH. This is attributed to the differences in query distribution between AugGSM8K and MATH which suggest that augmentation on a single benchmark could not help with overall math reasoning performance. Codes and AugGSM8K will be uploaded to https://github.com/OFA-Sys/gsm8k-ScRel.

arxiv情報

著者 Chengpeng Li,Zheng Yuan,Hongyi Yuan,Guanting Dong,Keming Lu,Jiancan Wu,Chuanqi Tan,Xiang Wang,Chang Zhou
発行日 2023-11-01 08:41:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク