SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

要約

監視された微調整（SFT）および強化学習（RL）は、基礎モデルのトレーニング後の技術を広く使用されています。
ただし、モデルの一般化機能の強化における役割は不明のままです。
このペーパーでは、テキストベースのルールバリアントと視覚バリアントに焦点を当てた、一般化と暗記に関するSFTとRLの違いを研究します。
算術推論カードゲームであるGeneralPointsを導入し、実世界のナビゲーション環境であるV-IRLを採用して、SFTとRLでトレーニングされたモデルがテキストドメインと視覚ドメインの両方で目に見えないバリアントにどのように一般化するかを評価します。
RLは、特に結果ベースの報酬で訓練された場合、ルールベースのテキストと視覚的なバリエーションの両方に一般化することを示します。
対照的に、SFTはトレーニングデータを記憶する傾向があり、分散型シナリオを一般化するために苦労しています。
さらなる分析により、RLはモデルの基礎となる視覚認識能力を改善し、視覚領域での一般化の強化に貢献していることが明らかになりました。
RLの優れた一般化にもかかわらず、SFTは効果的なRLトレーニングに不可欠なままであることを示しています。
SFTはモデルの出力形式を安定させ、その後のRLがパフォーマンスの向上を達成できるようにします。
これらの調査結果は、複雑なマルチモーダルタスクで一般化可能な知識を取得するためのRLの能力を示しています。

要約(オリジナル)

Supervised fine-tuning (SFT) and reinforcement learning (RL) are widely used post-training techniques for foundation models. However, their roles in enhancing model generalization capabilities remain unclear. This paper studies the difference between SFT and RL on generalization and memorization, focusing on text-based rule variants and visual variants. We introduce GeneralPoints, an arithmetic reasoning card game, and adopt V-IRL, a real-world navigation environment, to assess how models trained with SFT and RL generalize to unseen variants in both textual and visual domains. We show that RL, especially when trained with an outcome-based reward, generalizes across both rule-based textual and visual variants. SFT, in contrast, tends to memorize training data and struggles to generalize out-of-distribution scenarios. Further analysis reveals that RL improves the model’s underlying visual recognition capabilities, contributing to its enhanced generalization in the visual domain. Despite RL’s superior generalization, we show that SFT remains essential for effective RL training; SFT stabilizes the model’s output format, enabling subsequent RL to achieve its performance gains. These findings demonstrates the capability of RL for acquiring generalizable knowledge in complex, multi-modal tasks.

arxiv情報

著者	Tianzhe Chu,Yuexiang Zhai,Jihan Yang,Shengbang Tong,Saining Xie,Dale Schuurmans,Quoc V. Le,Sergey Levine,Yi Ma
発行日	2025-01-28 18:59:44+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー