要約
大型言語モデル(LLMS)の微調整は、推論能力を改善することを目的としていますが、直感に反する効果を明らかにします。モデルは、トレーニング中に以前に正しく答えた問題を解決する方法を忘れます。
この現象は一時的な忘却と呼ばれ、モデルサイズ、微調整方法(補強学習と監視された微調整の両方)、および複数の推論ベンチマーク全体に広がっていることを示しています。
このギャップに対処するために、トレーニングの軌跡に沿って複数のチェックポイントから出力を引き出す単純なデコード戦略である時間サンプリングを導入します。
このアプローチは、再訓練やアンサンブルなしで忘れられたソリューションを回復し、推論パフォーマンスの大幅な改善、パス@Kの4ポイントから19ポイントの増加、およびいくつかのベンチマーク全体で@Kの一貫した利益をもたらします。
さらに、方法をロラ適応モデルに拡張し、チェックポイントにアダプターの重みのみを保存することで、ストレージコストが最小限に抑えられて同様の利点が得られることを実証します。
トレーニングに固有の時間的多様性を活用することにより、一時的なサンプリングは、隠された推論能力を表現し、LLMを評価する方法を再考するための実用的で計算効率の良い方法を提供します。
要約(オリジナル)
Fine-tuning large language models (LLMs) is intended to improve their reasoning capabilities, yet we uncover a counterintuitive effect: models often forget how to solve problems they previously answered correctly during training. We term this phenomenon temporal forgetting and show that it is widespread across model sizes, fine-tuning methods (both Reinforcement Learning and Supervised Fine-Tuning), and multiple reasoning benchmarks. To address this gap, we introduce Temporal Sampling, a simple decoding strategy that draws outputs from multiple checkpoints along the training trajectory. This approach recovers forgotten solutions without retraining or ensembling, and leads to substantial improvements in reasoning performance, gains from 4 to 19 points in Pass@k and consistent gains in Majority@k across several benchmarks. We further extend our method to LoRA-adapted models, demonstrating that storing only adapter weights across checkpoints achieves similar benefits with minimal storage cost. By leveraging the temporal diversity inherent in training, Temporal Sampling offers a practical, compute-efficient way to surface hidden reasoning ability and rethink how we evaluate LLMs.
arxiv情報
著者 | Yuetai Li,Zhangchen Xu,Fengqing Jiang,Bhaskar Ramasubramanian,Luyao Niu,Bill Yuchen Lin,Xiang Yue,Radha Poovendran |
発行日 | 2025-05-26 16:39:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google