One-shot Entropy Minimization

要約

13,440の大規模な言語モデルをトレーニングし、エントロピーの最小化には、数千のデータを使用して得られたものに匹敵する、または規則ベースの強化学習において慎重に設計された報酬に匹敵する、またはさらに大きいパフォーマンスの改善を実現するために、単一の非標識データと10ステップの最適化が必要であることがわかりました。
この顕著な結果は、大規模な言語モデルのトレーニング後のパラダイムの再考を促す可能性があります。
私たちのコードはhttps://github.com/zitian-gao/one-shot-emで利用可能です。

要約(オリジナル)

We trained 13,440 large language models and found that entropy minimization requires only a single unlabeled data and 10 steps optimization to achieve performance improvements comparable to or even greater than those obtained using thousands of data and carefully designed rewards in rule-based reinforcement learning. This striking result may prompt a rethinking of post-training paradigms for large language models. Our code is avaliable at https://github.com/zitian-gao/one-shot-em.

arxiv情報

著者 Zitian Gao,Lynx Chen,Joey Zhou,Bryan Dai
発行日 2025-05-27 17:18:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク