要約
13,440の大規模な言語モデルをトレーニングし、エントロピーの最小化には、数千のデータを使用して得られたものに匹敵する、または規則ベースの強化学習において慎重に設計された報酬に匹敵する、またはさらに大きいパフォーマンスの改善を実現するために、単一の非標識データと10ステップの最適化が必要であることがわかりました。
この顕著な結果は、大規模な言語モデルのトレーニング後のパラダイムの再考を促す可能性があります。
私たちのコードはhttps://github.com/zitian-gao/one-shot-emで利用可能です。
要約(オリジナル)
We trained 13,440 large language models and found that entropy minimization requires only a single unlabeled data and 10 steps optimization to achieve performance improvements comparable to or even greater than those obtained using thousands of data and carefully designed rewards in rule-based reinforcement learning. This striking result may prompt a rethinking of post-training paradigms for large language models. Our code is avaliable at https://github.com/zitian-gao/one-shot-em.
arxiv情報
著者 | Zitian Gao,Lynx Chen,Joey Zhou,Bryan Dai |
発行日 | 2025-05-27 17:18:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google