Teaching Large Language Models to Reason with Reinforcement Learning

要約

人間のフィードバックからの強化学習 (\textbf{RLHF}) は、LLM 出力を人間の好みに合わせるための主要なアプローチとして浮上しました。
RLHF の成功に触発されて、LLM 推論機能の向上に関するフィードバック (エキスパート反復、近接ポリシー最適化 (\textbf{PPO})、Return-Conditioned RL) から学習する複数のアルゴリズムのパフォーマンスを研究します。
私たちは、ヒューリスティックと学習された報酬モデルを介して、LLM に提供される疎な報酬と密な報酬の両方を調査します。
さらに、教師あり微調整 (\textbf{SFT}) データの有無にかかわらず、複数のモデル サイズと初期化から開始します。
全体として、すべてのアルゴリズムが同等のパフォーマンスを発揮し、ほとんどの場合、Expert Iteration が最高のパフォーマンスを発揮することがわかりました。
驚くべきことに、Expert Iteration のサンプルの複雑さは PPO のサンプルの複雑さと同様であり、事前トレーニングされたチェックポイントから収束するには最大でも $10^6$ 程度のサンプルが必要であることがわかりました。
我々はなぜこれが当てはまるのかを調査し、RL トレーニング中にモデルは SFT モデルによってすでに生成されたソリューションを大幅に超える探索に失敗していると結論付けました。
さらに、SFT トレーニング中の maj@1 メトリック パフォーマンスと pass@96 メトリック パフォーマンスの間のトレードオフと、逆に RL トレーニングがどのように両方を同時に向上させるかについて説明します。
次に、RLHF に対する調査結果の意味と、LLM 微調整における RL の将来の役割について議論して締めくくります。

要約(オリジナル)

Reinforcement Learning from Human Feedback (\textbf{RLHF}) has emerged as a dominant approach for aligning LLM outputs with human preferences. Inspired by the success of RLHF, we study the performance of multiple algorithms that learn from feedback (Expert Iteration, Proximal Policy Optimization (\textbf{PPO}), Return-Conditioned RL) on improving LLM reasoning capabilities. We investigate both sparse and dense rewards provided to the LLM both heuristically and via a learned reward model. We additionally start from multiple model sizes and initializations both with and without supervised fine-tuning (\textbf{SFT}) data. Overall, we find all algorithms perform comparably, with Expert Iteration performing best in most cases. Surprisingly, we find the sample complexity of Expert Iteration is similar to that of PPO, requiring at most on the order of $10^6$ samples to converge from a pretrained checkpoint. We investigate why this is the case, concluding that during RL training models fail to explore significantly beyond solutions already produced by SFT models. Additionally, we discuss a trade off between maj@1 and pass@96 metric performance during SFT training and how conversely RL training improves both simultaneously. We then conclude by discussing the implications of our findings for RLHF and the future role of RL in LLM fine-tuning.

arxiv情報

著者 Alex Havrilla,Yuqing Du,Sharath Chandra Raparthy,Christoforos Nalmpantis,Jane Dwivedi-Yu,Maksym Zhuravinskyi,Eric Hambro,Sainbayar Sukhbaatar,Roberta Raileanu
発行日 2024-03-07 16:36:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク