One-shot Entropy Minimization

要約

我々は、13,440個の大規模言語モデルを訓練し、エントロピー最小化には、たった1個のラベルなしデータと10ステップの最適化が必要なだけで、ルールベースの強化学習において、数千個のデータと慎重に設計された報酬を用いて得られた性能に匹敵するか、それ以上の性能を達成できることを発見した。この驚くべき結果は、大規模言語モデルのポストトレーニングパラダイムの再考を促すかもしれない。我々のコードはhttps://github.com/zitian-gao/one-shot-em。

要約(オリジナル)

We trained 13,440 large language models and found that entropy minimization requires only a single unlabeled data and 10 steps optimization to achieve performance improvements comparable to or even greater than those obtained using thousands of data and carefully designed rewards in rule-based reinforcement learning. This striking result may prompt a rethinking of post-training paradigms for large language models. Our code is avaliable at https://github.com/zitian-gao/one-shot-em.

arxiv情報

著者 Zitian Gao,Lynx Chen,Joey Zhou,Bryan Dai
発行日 2025-06-03 17:45:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク