要約
この作業では、トークンレベルのマルコフ決定プロセスの下で、監視された微調整とオフラインの強化学習の間に新しい理論的なつながりを確立し、大きな言語モデルが実際に推論のための暗黙の$ Q $機能を学習することを明らかにします。
この理論的レンズを通じて、広く使用されているビーム検索方法は、容認できない過剰な最適主義に悩まされていることを実証します。この場合、$ Q $価値の推定の膨らんだことにより、推論エラーが必然的に増幅されます。
この制限に対処するために、監視された楽観補正(SOC)を提案します。これは、監視された微調整中にトークンレベルの$ Q $値の推定にシンプルでありながら効果的な損失をもたらします。
具体的には、補助損失は暗黙の価値の正規化を採用して、専門家が使用する反応に対するモデルの信頼を高め、それにより、監視されていない応答に対する過剰な最適主義を抑制します。
GSM8K、MATH、GAOKAOなどの数学的推論ベンチマークに関する広範な実験は、一連のオープンソースモデル全体でビーム検索で提案されたSOCの優位性を示しています。
要約(オリジナル)
In this work, we establish a novel theoretical connection between supervised fine-tuning and offline reinforcement learning under the token-level Markov decision process, revealing that large language models indeed learn an implicit $Q$-function for inference. Through this theoretical lens, we demonstrate that the widely used beam search method suffers from unacceptable over-optimism, where inference errors are inevitably amplified due to inflated $Q$-value estimations of suboptimal steps. To address this limitation, we propose Supervised Optimism Correction(SOC), which introduces a simple yet effective auxiliary loss for token-level $Q$-value estimations during supervised fine-tuning. Specifically, the auxiliary loss employs implicit value regularization to boost model confidence in expert-demonstrated responses, thereby suppressing over-optimism toward insufficiently supervised responses. Extensive experiments on mathematical reasoning benchmarks, including GSM8K, MATH, and GAOKAO, showcase the superiority of the proposed SOC with beam search across a series of open-source models.
arxiv情報
著者 | Junjie Zhang,Rushuai Yang,Shunyu Liu,Ting-En Lin,Fei Huang,Yi Chen,Yongbin Li,Dacheng Tao |
発行日 | 2025-04-10 07:50:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google