Right Question is Already Half the Answer: Fully Unsupervised LLM Reasoning Incentivization

要約

大規模な言語モデル(LLMS)は、数学的推論などの挑戦的なタスクにおいて並外れた機能を実証していますが、推論能力を強化する既存の方法は、主に監視された微調整(SFT)に依存し、その後、事前訓練後の推論固有のデータに関する強化学習(RL)が続きます。
ただし、これらのアプローチは、人間が標識された推論の痕跡、黄金の答え、または事前に訓練された報酬モデルなど、外部の監督に大きく依存します。これは、スケーラビリティと実用的な適用性を制限します。
この作業では、エントロピーを最小限に抑えた政策最適化(EMPO)を提案します。これにより、完全に監視されていないLLMの推論のインセンティブを早期に試みます。
EMPOは、推論能力を奨励するために監視された情報を必要としません(つまり、検証可能な推論の痕跡、黄金の答えの問題、または追加の訓練を受けた報酬モデルもありません)。
潜在的なセマンティック空間での無効なユーザークエリでのLLMの予測エントロピーを継続的に最小化することにより、EMPOは、強力な柔軟性と実用性を備えた推論能力の純粋に自己監視された進化を可能にします。
私たちの実験は、数学的推論と自由形式の自然な推論タスクの両方におけるEMPOの競争力を示しています。
具体的には、監視された信号なしでは、\ oursは、数学ベンチマークでQWEN2.5-MATH-7Bベースの精度を30.7 \%から48.1 \%に高め、MMLU-PROで32.1 \%から50.1 \%のQWEN2.5-7Bベースの精度を改善します。

要約(オリジナル)

While large language models (LLMs) have demonstrated exceptional capabilities in challenging tasks such as mathematical reasoning, existing methods to enhance reasoning ability predominantly rely on supervised fine-tuning (SFT) followed by reinforcement learning (RL) on reasoning-specific data after pre-training. However, these approaches critically depend on external supervision–such as human-labelled reasoning traces, verified golden answers, or pre-trained reward models–which limits scalability and practical applicability. In this work, we propose Entropy Minimized Policy Optimization (EMPO), which makes an early attempt at fully unsupervised LLM reasoning incentivization. EMPO does not require any supervised information for incentivizing reasoning capabilities (i.e., neither verifiable reasoning traces, problems with golden answers, nor additional pre-trained reward models). By continuously minimizing the predictive entropy of LLMs on unlabeled user queries in a latent semantic space, EMPO enables purely self-supervised evolution of reasoning capabilities with strong flexibility and practicality. Our experiments demonstrate competitive performance of EMPO on both mathematical reasoning and free-form natural reasoning tasks. Specifically, without any supervised signals, \ours boosts the accuracy of Qwen2.5-Math-7B Base from 30.7\% to 48.1\% on mathematical benchmarks and improves the accuracy of Qwen2.5-7B Base from 32.1\% to 50.1\% on MMLU-Pro.

arxiv情報

著者 Qingyang Zhang,Haitao Wu,Changqing Zhang,Peilin Zhao,Yatao Bian
発行日 2025-04-23 14:25:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク