Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning

要約

DeepSeek-R1の成功に触発されて、大規模な推論モデルでのルールベースの強化学習(RL)の可能性を探ります。
推論ダイナミクスを分析するために、制御可能な複雑さと簡単な回答の検証により、合成ロジックパズルをトレーニングデータとして使用します。
効果的かつ安定したRLトレーニングにつながるいくつかの重要な技術的貢献を作成します。思考と回答プロセスを強調するシステムプロンプト、ショートカットを取得するために出力を罰する厳しい形式報酬機能、および安定した収束を達成する簡単なトレーニングレシピです。
7Bモデルは、ロジックコーパスには存在しない、反映、検証、要約など、高度な推論スキルなどを開発しています。
驚くべきことに、わずか5Kロジックの問題をトレーニングした後、挑戦的な数学ベンチマークAIMEとAMCの一般化能力を示しています。

要約(オリジナル)

Inspired by the success of DeepSeek-R1, we explore the potential of rule-based reinforcement learning (RL) in large reasoning models. To analyze reasoning dynamics, we use synthetic logic puzzles as training data due to their controllable complexity and straightforward answer verification. We make some key technical contributions that lead to effective and stable RL training: a system prompt that emphasizes the thinking and answering process, a stringent format reward function that penalizes outputs for taking shortcuts, and a straightforward training recipe that achieves stable convergence. Our 7B model develops advanced reasoning skills-such as reflection, verification, and summarization-that are absent from the logic corpus. Remarkably, after training on just 5K logic problems, it demonstrates generalization abilities to the challenging math benchmarks AIME and AMC.

arxiv情報

著者 Tian Xie,Zitian Gao,Qingnan Ren,Haoming Luo,Yuqian Hong,Bryan Dai,Joey Zhou,Kai Qiu,Zhirong Wu,Chong Luo
発行日 2025-02-20 17:49:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク