RL on Incorrect Synthetic Data Scales the Efficiency of LLM Math Reasoning by Eight-Fold

要約

モデル生成された合成データでのトレーニングは、LLM を微調整するための有望なアプローチですが、それがいつ役立つのか、それとも悪影響を与えるのかはまだ不明です。
この論文では、経験的研究を通じて数学的推論のためのこの質問を調査し、その後、観察結果の概念的な理解を構築します。
まず、有能なモデルによって生成された合成の正解または正の問題と解決策のペアに基づいてモデルを微調整する一般的なアプローチでは、パフォーマンスがわずかに向上しますが、微調整された学習器自体からより正確な解決策をサンプリングし、続いてこの自己学習器を微調整することがわかります。
生成されたデータ $\textbf{2 倍}$ は、同じ合成問題の効率を向上させます。
同時に、モデルで生成されたポジティブな値に基づいてトレーニングすると、さまざまな誤った相関が増幅される可能性があり、その結果、データ量が増加するにつれて平坦または逆スケーリング傾向が生じることもあります。
驚くべきことに、これらの問題のいくつかは、否定的な応答、つまり、最終回答検証者によって不正確であるとみなされるモデルによって生成された応答も利用すると、対処できることがわかりました。
重要なことは、これらの否定応答は、否定応答の各中間ステップの有用性または利点をトレーニングで適切に回復できるように構築されなければなりません。
このステップごとのスキームを使用すると、正のデータのみに対して一貫したゲインを達成することができ、合成データの量を $\mathbf{8 \times}$ だけ増幅した場合と同様のパフォーマンスを達成できます。
ステップごとのネガティブなトレーニングは、ポジティブなデータの誤った相関を学習するのに役立ち、利点加重強化学習 (RL) と同等であることを示し、ポジティブなデータのみを模倣するよりも RL の堅牢性の利点を継承していることを意味します。

要約(オリジナル)

Training on model-generated synthetic data is a promising approach for finetuning LLMs, but it remains unclear when it helps or hurts. In this paper, we investigate this question for math reasoning via an empirical study, followed by building a conceptual understanding of our observations. First, we find that while the typical approach of finetuning a model on synthetic correct or positive problem-solution pairs generated by capable models offers modest performance gains, sampling more correct solutions from the finetuned learner itself followed by subsequent fine-tuning on this self-generated data $\textbf{doubles}$ the efficiency of the same synthetic problems. At the same time, training on model-generated positives can amplify various spurious correlations, resulting in flat or even inverse scaling trends as the amount of data increases. Surprisingly, we find that several of these issues can be addressed if we also utilize negative responses, i.e., model-generated responses that are deemed incorrect by a final answer verifier. Crucially, these negatives must be constructed such that the training can appropriately recover the utility or advantage of each intermediate step in the negative response. With this per-step scheme, we are able to attain consistent gains over only positive data, attaining performance similar to amplifying the amount of synthetic data by $\mathbf{8 \times}$. We show that training on per-step negatives can help to unlearn spurious correlations in the positive data, and is equivalent to advantage-weighted reinforcement learning (RL), implying that it inherits robustness benefits of RL over imitating positive data alone.

arxiv情報

著者 Amrith Setlur,Saurabh Garg,Xinyang Geng,Naman Garg,Virginia Smith,Aviral Kumar
発行日 2024-06-20 17:45:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク