Weight Ensembling Improves Reasoning in Language Models

要約

推論モデルのトレーニング中に発生する障害モードを調査します。そこでは、世代の多様性が崩壊し始め、最適ではないテスト時間スケーリングにつながります。
特に、パス@1レートは、監視されたFinetuning(SFT)中に確実に改善されますが、パス@Kは急速に劣化します。
驚くべきことに、最新のSFTチェックポイントの重みを早期チェックポイント(Wise-ftとも呼ばれる)を補間するという単純な介入は、パス@Kもほぼ完全に回復し、パス@1を改善します。
Wise-ftバリアントは、より良いテスト時間スケーリング(Best@K、多数決)を達成し、強化学習によってさらに調整された場合、より少ないデータで優れた結果を達成します。
最後に、Wise-FTは、温度スケーリングなどの多様性を誘発するデコード戦略によってのみ達成できない補完的なパフォーマンスの向上を提供することがわかります。
テスト分布に対するPass@1の期待と分散に関して、Pass@Kのバイアス分散トレードオフを正式化します。
Wise-ftはバイアスと分散を同時に減らすことができ、温度スケーリングは本質的にバイアスと分散の間のトレードオフを減らすことができます。

要約(オリジナル)

We investigate a failure mode that arises during the training of reasoning models, where the diversity of generations begins to collapse, leading to suboptimal test-time scaling. Notably, the Pass@1 rate reliably improves during supervised finetuning (SFT), but Pass@k rapidly deteriorates. Surprisingly, a simple intervention of interpolating the weights of the latest SFT checkpoint with an early checkpoint, otherwise known as WiSE-FT, almost completely recovers Pass@k while also improving Pass@1. The WiSE-FT variant achieves better test-time scaling (Best@k, majority vote) and achieves superior results with less data when tuned further by reinforcement learning. Finally, we find that WiSE-FT provides complementary performance gains that cannot be achieved only through diversity-inducing decoding strategies, like temperature scaling. We formalize a bias-variance tradeoff of Pass@k with respect to the expectation and variance of Pass@1 over the test distribution. We find that WiSE-FT can reduce bias and variance simultaneously, while temperature scaling inherently trades-off between bias and variance.

arxiv情報

著者 Xingyu Dang,Christina Baek,Kaiyue Wen,Zico Kolter,Aditi Raghunathan
発行日 2025-04-14 17:59:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク