RL on Incorrect Synthetic Data Scales the Efficiency of LLM Math Reasoning by Eight-Fold


モデル生成された合成データでのトレーニングは、LLM を微調整するための有望なアプローチですが、それがいつ役立つのか、それとも悪影響を与えるのかはまだ不明です。
生成されたデータ $\textbf{2 倍}$ は、同じ合成問題の効率を向上させます。
このステップごとのスキームを使用すると、正のデータのみに対して一貫したゲインを達成することができ、合成データの量を $\mathbf{8 \times}$ だけ増幅した場合と同様のパフォーマンスを達成できます。
ステップごとのネガティブなトレーニングは、ポジティブなデータの誤った相関を学習するのに役立ち、利点加重強化学習 (RL) と同等であることを示し、ポジティブなデータのみを模倣するよりも RL の堅牢性の利点を継承していることを意味します。


Training on model-generated synthetic data is a promising approach for finetuning LLMs, but it remains unclear when it helps or hurts. In this paper, we investigate this question for math reasoning via an empirical study, followed by building a conceptual understanding of our observations. First, we find that while the typical approach of finetuning a model on synthetic correct or positive problem-solution pairs generated by capable models offers modest performance gains, sampling more correct solutions from the finetuned learner itself followed by subsequent fine-tuning on this self-generated data $\textbf{doubles}$ the efficiency of the same synthetic problems. At the same time, training on model-generated positives can amplify various spurious correlations, resulting in flat or even inverse scaling trends as the amount of data increases. Surprisingly, we find that several of these issues can be addressed if we also utilize negative responses, i.e., model-generated responses that are deemed incorrect by a final answer verifier. Crucially, these negatives must be constructed such that the training can appropriately recover the utility or advantage of each intermediate step in the negative response. With this per-step scheme, we are able to attain consistent gains over only positive data, attaining performance similar to amplifying the amount of synthetic data by $\mathbf{8 \times}$. We show that training on per-step negatives can help to unlearn spurious correlations in the positive data, and is equivalent to advantage-weighted reinforcement learning (RL), implying that it inherits robustness benefits of RL over imitating positive data alone.


著者 Amrith Setlur,Saurabh Garg,Xinyang Geng,Naman Garg,Virginia Smith,Aviral Kumar
発行日 2024-06-20 17:45:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク