要約
強化学習(RL)により、機械学習モデルが多くの分野で大きな進歩を達成できるようになりました。
最近では、RLは、挑戦的な数学、科学、コーディングの問題を解決できるフロンティア言語モデルに力を与えました。
ただし、RLアルゴリズムの中心は報酬機能であり、報酬エンジニアリングはどのドメインでも有名な問題です。
このホワイトペーパーでは、家賃を提案します。エントロピー最小化による補強学習 – 外部報酬や根本的な回答を必要とせず、その基礎となる分布のモデルのエントロピーを本質的な報酬として使用します。
生成された答えにモデルの信頼が高くなる思考の鎖を強化することにより、モデルはその推論能力を向上させることがわかります。
実験では、GSM8K、Math500、AMC、AIME、GPQAなど、一般的に使用されている推論ベンチマークの広範なスイート、およびQwenおよびMistralファミリーのさまざまなサイズのモデルでこれらの改善を紹介します。
私たちの監視されていない学習方法の一般性は、外部の監督が利用できない幅広いドメインでの適用性に役立ちます。
要約(オリジナル)
Reinforcement learning (RL) has enabled machine learning models to achieve significant advances in many fields. Most recently, RL has empowered frontier language models to solve challenging math, science, and coding problems. However, central to any RL algorithm is the reward function, and reward engineering is a notoriously difficult problem in any domain. In this paper, we propose RENT: Reinforcement Learning via Entropy Minimization — a fully unsupervised RL method that requires no external reward or ground-truth answers, and instead uses the model’s entropy of its underlying distribution as an intrinsic reward. We find that by reinforcing the chains of thought that yield high model confidence on its generated answers, the model improves its reasoning ability. In our experiments, we showcase these improvements on an extensive suite of commonly-used reasoning benchmarks, including GSM8K, MATH500, AMC, AIME, and GPQA, and models of varying sizes from the Qwen and Mistral families. The generality of our unsupervised learning method lends itself to applicability in a wide range of domains where external supervision is unavailable.
arxiv情報
著者 | Mihir Prabhudesai,Lili Chen,Alex Ippoliti,Katerina Fragkiadaki,Hao Liu,Deepak Pathak |
発行日 | 2025-05-29 17:14:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google