Scaling Relationship on Learning Mathematical Reasoning with Large Language Models

要約

大規模言語モデル (LLM) にとって数学的推論は困難なタスクですが、LLM の能力とのスケーリング関係は十分に調査されていません。
この論文では、事前トレーニング損失、教師ありデータ量、および拡張データ量が教師あり LLM の推論パフォーマンスにどのように影響するかを調査します。
モデルのパラメータ数よりも、トレーニング前の損失の方がモデルのパフォーマンスを示す優れた指標であることがわかりました。
私たちは、さまざまな量の教師ありデータを使用して教師ありファインチューニング (SFT) を適用し、データ量とモデルのパフォーマンスの間に対数線形の関係を経験的に見つけました。また、より良いモデルは、教師ありデータセットを拡大しても改善が少ないことがわかりました。
人的努力なしでモデルのパフォーマンスを向上させるためにより多くのデータ サンプルを増強するには、拒否サンプリング微調整 (RFT) を適用することを提案します。
RFT は教師ありモデルを使用して、正しい推論パスを強化された微調整データセットとして生成および収集します。
より明確な推論パスを含む拡張サンプルを使用すると、RFT により LLM の数学的推論パフォーマンスがさらに向上することがわかりました。
また、RFT はパフォーマンスの低い LLM にさらなる改善をもたらすこともわかりました。
さらに、複数のモデルからの拒否サンプルを組み合わせて、LLaMA-7B を GSM8K 上で 49.3\% の精度に押し上げ、教師あり微調整 (SFT) 精度の 35.9\% を大幅に上回りました。

要約(オリジナル)

Mathematical reasoning is a challenging task for large language models (LLMs), while the scaling relationship of it with respect to LLM capacity is under-explored. In this paper, we investigate how the pre-training loss, supervised data amount, and augmented data amount influence the reasoning performances of a supervised LLM. We find that pre-training loss is a better indicator of the model’s performance than the model’s parameter count. We apply supervised fine-tuning (SFT) with different amounts of supervised data and empirically find a log-linear relation between data amount and model performance, and we find better models improve less with enlarged supervised datasets. To augment more data samples for improving model performances without any human effort, we propose to apply Rejection sampling Fine-Tuning (RFT). RFT uses supervised models to generate and collect correct reasoning paths as augmented fine-tuning datasets. We find with augmented samples containing more distinct reasoning paths, RFT improves mathematical reasoning performance more for LLMs. We also find RFT brings more improvement for less performant LLMs. Furthermore, we combine rejection samples from multiple models which push LLaMA-7B to an accuracy of 49.3\% on GSM8K which outperforms the supervised fine-tuning (SFT) accuracy of 35.9\% significantly.

arxiv情報

著者 Zheng Yuan,Hongyi Yuan,Chengpeng Li,Guanting Dong,Keming Lu,Chuanqi Tan,Chang Zhou,Jingren Zhou
発行日 2023-09-13 03:57:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク