The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

要約

このペーパーは、LLMSとの推論のためにRLをスケーリングする際の大きな障害、つまり政策エントロピーの崩壊を克服することを目的としています。
このような現象は、エントロピー介入なしに広大なRLの実行全体で一貫して観察されます。そこでは、ポリシーエントロピーが初期のトレーニング段階で急激に低下し、この探索能力の低下は常に政策パフォーマンスの飽和状態に伴います。
実際には、エントロピーHと下流のパフォーマンスR間の変換方程式r = -a*e^h+bを確立します。この経験的法則は、ポリシーのパフォーマンスがポリシーエントロピーから取引されていることを強く示しています。
私たちの発見は、RLのスケーリング計算に向けた継続的な探索のためにエントロピー管理を必要とします。
この目的のために、理論的および経験的にエントロピーダイナミクスを調査します。
私たちの派生は、ポリシーエントロピーの変化は、アクション確率とロジットの変化との共分散によって促進されていることを強調しています。これは、ポリシーグラデーション様アルゴリズムを使用する場合の利点に比例します。
経験的研究は、共分散項とエントロピーの違いの値が正確に一致し、理論的結論を裏付けることを示しています。
さらに、共分散期間はトレーニングを通じてほぼ正のままであり、政策エントロピーが単調に減少する理由をさらに説明します。
エントロピーダイナミクスの背後にあるメカニズムを理解することにより、高カリキントークンの更新を制限することにより、エントロピーを制御するように動機付けます。
具体的には、2つのシンプルで効果的な手法、すなわちクリップCOVとKL-COVを提案します。これは、それぞれ高い共分散を備えたトークンにKLペナルティをクリップして適用します。
実験では、これらの方法が探索を促進し、ポリシーがエントロピーの崩壊を逃れ、より良い下流のパフォーマンスを達成するのに役立つことが示されています。

要約(オリジナル)

This paper aims to overcome a major obstacle in scaling RL for reasoning with LLMs, namely the collapse of policy entropy. Such phenomenon is consistently observed across vast RL runs without entropy intervention, where the policy entropy dropped sharply at the early training stage, this diminished exploratory ability is always accompanied with the saturation of policy performance. In practice, we establish a transformation equation R=-a*e^H+b between entropy H and downstream performance R. This empirical law strongly indicates that, the policy performance is traded from policy entropy, thus bottlenecked by its exhaustion, and the ceiling is fully predictable H=0, R=-a+b. Our finding necessitates entropy management for continuous exploration toward scaling compute for RL. To this end, we investigate entropy dynamics both theoretically and empirically. Our derivation highlights that, the change in policy entropy is driven by the covariance between action probability and the change in logits, which is proportional to its advantage when using Policy Gradient-like algorithms. Empirical study shows that, the values of covariance term and entropy differences matched exactly, supporting the theoretical conclusion. Moreover, the covariance term stays mostly positive throughout training, further explaining why policy entropy would decrease monotonically. Through understanding the mechanism behind entropy dynamics, we motivate to control entropy by restricting the update of high-covariance tokens. Specifically, we propose two simple yet effective techniques, namely Clip-Cov and KL-Cov, which clip and apply KL penalty to tokens with high covariances respectively. Experiments show that these methods encourage exploration, thus helping policy escape entropy collapse and achieve better downstream performance.

arxiv情報

著者 Ganqu Cui,Yuchen Zhang,Jiacheng Chen,Lifan Yuan,Zhi Wang,Yuxin Zuo,Haozhan Li,Yuchen Fan,Huayu Chen,Weize Chen,Zhiyuan Liu,Hao Peng,Lei Bai,Wanli Ouyang,Yu Cheng,Bowen Zhou,Ning Ding
発行日 2025-05-28 17:38:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク