要約
検証可能な報酬(RLVR)による強化学習は、数学的問題解決などの複雑な推論タスクに関する大規模な言語モデル(LLM)をトレーニングするのに効果的であることが証明されています。
RLVRのスケーラビリティの前提条件は、正確で検証可能な回答を伴う高品質の問題です。
ただし、既存の蒸留指向の合成データセットにおける、巧妙に作られた人間標識数学の問題と制限された回答の希少性は、RLの有効性を制限します。
さらに、ほとんどの問題合成戦略は、モデルの機能を考慮せずに問題セットを無差別に拡張し、有用な質問を生成する効率が低くなります。
この問題を軽減するために、モデルの欠陥を体系的に識別し、問題の増強のためにそれらを活用する自己認識の衰弱型の問題合成フレームワーク(SWS)を紹介します。
具体的には、RLトレーニング中の反復サンプリングを通じてモデルが一貫して学習できないという質問として弱点を定義します。
次に、これらの障害ケースからコア概念を抽出し、新しい問題を統合して、その後の拡張トレーニングでモデルの弱点を強化し、その弱点に焦点を合わせて徐々に克服できるようにします。
外部の知識の蒸留に依存せずに、当社のフレームワークにより、モデルがRLの弱点を自己識別し、対処するために堅牢な一般化を可能にし、7Bおよび32Bモデルで10.0%と7.7%の平均パフォーマンスの向上をもたらします。
要約(オリジナル)
Reinforcement Learning with Verifiable Rewards (RLVR) has proven effective for training large language models (LLMs) on complex reasoning tasks, such as mathematical problem solving. A prerequisite for the scalability of RLVR is a high-quality problem set with precise and verifiable answers. However, the scarcity of well-crafted human-labeled math problems and limited-verification answers in existing distillation-oriented synthetic datasets limit their effectiveness in RL. Additionally, most problem synthesis strategies indiscriminately expand the problem set without considering the model’s capabilities, leading to low efficiency in generating useful questions. To mitigate this issue, we introduce a Self-aware Weakness-driven problem Synthesis framework (SwS) that systematically identifies model deficiencies and leverages them for problem augmentation. Specifically, we define weaknesses as questions that the model consistently fails to learn through its iterative sampling during RL training. We then extract the core concepts from these failure cases and synthesize new problems to strengthen the model’s weak areas in subsequent augmented training, enabling it to focus on and gradually overcome its weaknesses. Without relying on external knowledge distillation, our framework enables robust generalization byempowering the model to self-identify and address its weaknesses in RL, yielding average performance gains of 10.0% and 7.7% on 7B and 32B models across eight mainstream reasoning benchmarks.
arxiv情報
著者 | Xiao Liang,Zhong-Zhi Li,Yeyun Gong,Yang Wang,Hengyuan Zhang,Yelong Shen,Ying Nian Wu,Weizhu Chen |
発行日 | 2025-06-10 17:02:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google