要約
我々は、13,440個の大規模言語モデルを訓練し、エントロピー最小化には、たった1個のラベルなしデータと10ステップの最適化が必要なだけで、ルールベースの強化学習において、数千個のデータと慎重に設計された報酬を用いて得られた性能に匹敵するか、それ以上の性能を達成できることを発見した。この驚くべき結果は、大規模言語モデルのポストトレーニングパラダイムの再考を促すかもしれない。我々のコードはhttps://github.com/zitian-gao/one-shot-em。
要約(オリジナル)
We trained 13,440 large language models and found that entropy minimization requires only a single unlabeled data and 10 steps optimization to achieve performance improvements comparable to or even greater than those obtained using thousands of data and carefully designed rewards in rule-based reinforcement learning. This striking result may prompt a rethinking of post-training paradigms for large language models. Our code is avaliable at https://github.com/zitian-gao/one-shot-em.
arxiv情報
著者 | Zitian Gao,Lynx Chen,Joey Zhou,Bryan Dai |
発行日 | 2025-06-03 17:45:49+00:00 |
arxivサイト | arxiv_id(pdf) |