要約
探索と搾取のバランスは、強化学習(RL)の中心的な目標です。
言語モデル(LM)の推論の強化における最近の進歩にもかかわらず、ほとんどの方法は搾取に傾いており、パフォーマンスのプラトーにますます遭遇しています。
この作業では、エントロピーを再検討します – RLの探査のシグナル – は、LMSの探索的推論との関係を調べます。
経験的分析を通じて、高エントロピー領域と3種類の探索的推論アクションの間の強い正の相関を明らかにします:(1)論理的なステップを決定または接続する重要なトークン、(2)自己検証と修正などの反射的なアクション、および(3)基本LMSが把握していないまれな行動。
これにより動機付けられているため、コードの1行のみで標準RLに最小限の変更を導入します。エントロピーベースの用語でアドバンテージ関数を増強します。
不確実性を促進することで探査を促進する従来の最大エントロピー方法とは異なり、より長くより深い推論チェーンを促進することにより、探索を奨励します。
特に、私たちの方法は、非常に大きなK値で評価された場合でも、LM推論の境界を押し広げる場合でも、PASS@Kメトリック(LM推論能力の上限推定量)で大幅な利益を達成します。
要約(オリジナル)
Balancing exploration and exploitation is a central goal in reinforcement learning (RL). Despite recent advances in enhancing language model (LM) reasoning, most methods lean toward exploitation, and increasingly encounter performance plateaus. In this work, we revisit entropy — a signal of exploration in RL — and examine its relationship to exploratory reasoning in LMs. Through empirical analysis, we uncover strong positive correlations between high-entropy regions and three types of exploratory reasoning actions: (1) pivotal tokens that determine or connect logical steps, (2) reflective actions such as self-verification and correction, and (3) rare behaviors under-explored by the base LMs. Motivated by this, we introduce a minimal modification to standard RL with only one line of code: augmenting the advantage function with an entropy-based term. Unlike traditional maximum-entropy methods which encourage exploration by promoting uncertainty, we encourage exploration by promoting longer and deeper reasoning chains. Notably, our method achieves significant gains on the Pass@K metric — an upper-bound estimator of LM reasoning capabilities — even when evaluated with extremely large K values, pushing the boundaries of LM reasoning.
arxiv情報
著者 | Daixuan Cheng,Shaohan Huang,Xuekai Zhu,Bo Dai,Wayne Xin Zhao,Zhenliang Zhang,Furu Wei |
発行日 | 2025-06-17 17:54:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google