要約
数理的推論は大規模言語モデル(LLM)にとって挑戦的なタスクであるが、LLMの容量に対するスケーリング関係については未解明である。本論文では、事前学習損失、教師データ量、拡張データ量が教師ありLLMの推論性能にどのような影響を与えるかを調べる。その結果、事前学習損失はモデルのパラメータ数よりも、モデルの性能の良い指標であることがわかった。我々は、教師ありデータ量を変化させながら教師ありファインチューニング(SFT)を適用し、経験的にデータ量とモデル性能の間に対数線形関係を見出した。人手をかけずにモデル性能を向上させるためにデータサンプルを増やすために、我々は拒絶サンプリング微調整(RFT)を適用することを提案する。RFTは、教師ありモデルを用いて、正しい推論パスを生成し、拡張微調整データセットとして収集する。我々は、より明確な推論パスを含む補強されたサンプルにより、RFTがLLMの数学的推論性能をより向上させることを発見した。また、性能の低いLLMに対しても、RFTはより多くの改善をもたらすことがわかった。さらに、複数のモデルからの拒絶サンプルを組み合わせることで、LLaMA-7Bの精度を49.3%に押し上げ、教師ありファインチューニング(SFT)の精度35.9%を大幅に上回る。
要約(オリジナル)
Mathematical reasoning is a challenging task for large language models (LLMs), while the scaling relationship of it with respect to LLM capacity is under-explored. In this paper, we investigate how the pre-training loss, supervised data amount, and augmented data amount influence the reasoning performances of a supervised LLM. We find that pre-training loss is a better indicator of the model’s performance than the model’s parameter count. We apply supervised fine-tuning (SFT) with different amounts of supervised data and empirically find a log-linear relation between data amount and model performance, and we find better models improve less with enlarged supervised datasets. To augment more data samples for improving model performances without any human effort, we propose to apply Rejection sampling Fine-Tuning (RFT). RFT uses supervised models to generate and collect correct reasoning paths as augmented fine-tuning datasets. We find with augmented samples containing more distinct reasoning paths, RFT improves mathematical reasoning performance more for LLMs. We also find RFT brings more improvement for less performant LLMs. Furthermore, we combine rejection samples from multiple models which push LLaMA-7B to an accuracy of 49.3% and outperforms the supervised fine-tuning (SFT) accuracy of 35.9% significantly.
arxiv情報
著者 | Zheng Yuan,Hongyi Yuan,Chengpeng Li,Guanting Dong,Chuanqi Tan,Chang Zhou |
発行日 | 2023-08-03 15:34:01+00:00 |
arxivサイト | arxiv_id(pdf) |