要約
検証可能な報酬(RLVR)による強化学習は、結果ベースの報酬から直接学習することにより、大規模な言語モデルの推論能力を高めることに有望を示しています。
ゼロ設定の下で動作する最近のRLVRは、推論プロセスのラベル付けにおいて監督を避けていますが、トレーニングのための質問と回答の手動でキュレーションされたコレクションに依存しています。
高品質で人間が生成された例の希少性は、人間の監督に依存することの長期的なスケーラビリティについての懸念を引き起こします。これは、言語モデルの前削除の領域ですでに明らかな課題です。
さらに、AIが人間の知能を上回る仮説的な未来において、人間が提供するタスクは、緊密なシステムの学習の可能性が限られている可能性があります。
これらの懸念に対処するために、Absoluteゼロと呼ばれる新しいRLVRパラダイムを提案します。単一のモデルは、外部データに依存せずに、独自の学習の進歩を最大化し、それらを解決することで推論を改善するタスクを提案することを学びます。
このパラダイムの下で、コードエグゼクティブを使用してトレーニングカリキュラムと推論能力を自己進化させるシステムである絶対ゼロ推論(AZR)を紹介します。
AZRは、外部データなしで完全に訓練されているにもかかわらず、コーディングおよび数学的推論タスクで全体的なSOTAパフォーマンスを達成し、数万人のドメイン内でキュレーションされた例に依存する既存のゼロセッティングモデルよりも優れています。
さらに、AZRはさまざまなモデルスケールに効果的に適用できることを実証し、さまざまなモデルクラスと互換性があります。
要約(オリジナル)
Reinforcement learning with verifiable rewards (RLVR) has shown promise in enhancing the reasoning capabilities of large language models by learning directly from outcome-based rewards. Recent RLVR works that operate under the zero setting avoid supervision in labeling the reasoning process, but still depend on manually curated collections of questions and answers for training. The scarcity of high-quality, human-produced examples raises concerns about the long-term scalability of relying on human supervision, a challenge already evident in the domain of language model pretraining. Furthermore, in a hypothetical future where AI surpasses human intelligence, tasks provided by humans may offer limited learning potential for a superintelligent system. To address these concerns, we propose a new RLVR paradigm called Absolute Zero, in which a single model learns to propose tasks that maximize its own learning progress and improves reasoning by solving them, without relying on any external data. Under this paradigm, we introduce the Absolute Zero Reasoner (AZR), a system that self-evolves its training curriculum and reasoning ability by using a code executor to both validate proposed code reasoning tasks and verify answers, serving as an unified source of verifiable reward to guide open-ended yet grounded learning. Despite being trained entirely without external data, AZR achieves overall SOTA performance on coding and mathematical reasoning tasks, outperforming existing zero-setting models that rely on tens of thousands of in-domain human-curated examples. Furthermore, we demonstrate that AZR can be effectively applied across different model scales and is compatible with various model classes.
arxiv情報
著者 | Andrew Zhao,Yiran Wu,Yang Yue,Tong Wu,Quentin Xu,Yang Yue,Matthieu Lin,Shenzhi Wang,Qingyun Wu,Zilong Zheng,Gao Huang |
発行日 | 2025-05-06 09:08:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google