Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

要約

強化学習(RL)は、バイナリ検証信号を通じて自己改善を可能にすることにより、LLMSの数学能力の最近の急増において中心的な役割を果たしてきました。
対照的に、監督された学習(SL)は、主に参照の回答に大きく依存し、間違いを反映できないため、そのような検証主導型のトレーニングではめったに考慮されません。
この作業では、自己改善はRLに限定され、否定的な微調整(NFT)を提案するという一般的な概念に挑戦します。これは、LLMが障害を反映し、外部教師なしで自律的に改善できるようにする監視されたアプローチです。
オンライントレーニングでは、自己生成された否定的な答えを捨てる代わりに、NFTはそれらをモデル化するための暗黙のネガティブポリシーを構築します。
この暗黙のポリシーは、ポジティブデータを最適化するためにターゲットにした同じ正のLLMでパラメーター化され、すべてのLLMSの世代の直接的なポリシーの最適化を可能にします。
数学の推論タスクで7Bおよび32Bモデルで実験を実施します。
結果は、否定的なフィードバックの追加レバレッジを通じて、NFTがGRPOやDAPOなどの主要なRLアルゴリズムを微調整したり、一致させたり、それを上回ったりする拒絶反応などのSLベースラインで大幅に改善することを一貫して示しています。
さらに、NFTとGRPOは、まったく異なる理論的基礎に由来しているにもかかわらず、実際には厳格なポリシートレーニングで同等であることを実証します。
私たちの実験と理論的発見は、バイナリフィードバック学習システムのSLメソッドとRLメソッドのギャップを埋めます。

要約(オリジナル)

Reinforcement Learning (RL) has played a central role in the recent surge of LLMs’ math abilities by enabling self-improvement through binary verifier signals. In contrast, Supervised Learning (SL) is rarely considered for such verification-driven training, largely due to its heavy reliance on reference answers and inability to reflect on mistakes. In this work, we challenge the prevailing notion that self-improvement is exclusive to RL and propose Negative-aware Fine-Tuning (NFT) — a supervised approach that enables LLMs to reflect on their failures and improve autonomously with no external teachers. In online training, instead of throwing away self-generated negative answers, NFT constructs an implicit negative policy to model them. This implicit policy is parameterized with the same positive LLM we target to optimize on positive data, enabling direct policy optimization on all LLMs’ generations. We conduct experiments on 7B and 32B models in math reasoning tasks. Results consistently show that through the additional leverage of negative feedback, NFT significantly improves over SL baselines like Rejection sampling Fine-Tuning, matching or even surpassing leading RL algorithms like GRPO and DAPO. Furthermore, we demonstrate that NFT and GRPO are actually equivalent in strict-on-policy training, even though they originate from entirely different theoretical foundations. Our experiments and theoretical findings bridge the gap between SL and RL methods in binary-feedback learning systems.

arxiv情報

著者 Huayu Chen,Kaiwen Zheng,Qinsheng Zhang,Ganqu Cui,Yin Cui,Haotian Ye,Tsung-Yi Lin,Ming-Yu Liu,Jun Zhu,Haoxiang Wang
発行日 2025-05-23 17:17:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク