SynLogic: Synthesizing Verifiable Reasoning Data at Scale for Learning Logical Reasoning and Beyond

要約

Openai-O1やDeepseek R1などの最近の進歩により、大規模な言語モデル(LLMS)の推論能力を高める補強学習(RL)の可能性が実証されています。
オープンソースの複製の取り組みは主に数学的およびコーディングドメインに焦点を当てていますが、一般的な推論能力を開発するための方法とリソースは依存していないままです。
このギャップは、RLに適した多様で検証可能な推論データを収集するという課題によるものです。
論理は、論理が推論の基本的な構成要素を形成するため、一般的な推論能力を開発するために重要であると仮定します。
この作業では、35の多様な論理推論タスクを含む、多様な論理推論データを生成するデータ統合フレームワークとデータセットであるSynlogicを提示します。
Synlogicアプローチにより、調整可能な難易度と量を伴うデータの制御された合成が可能になります。
重要なことに、すべての例は単純なルールによって検証され、検証可能な報酬を備えたRLに理想的に適したルールで検証できます。
実験では、7Bモデルと32Bモデルに基づいてSynlogic DatasetでRLトレーニングの有効性を検証します。
Synlogicは、オープンソースのデータセット間で最先端の論理的推論パフォーマンスにつながり、BBEHで6ポイントを超えてDeepSeek-R1-Distill-Qwen-32Bを上回ります。
さらに、シンロジックデータと数学的およびコーディングタスクを混合すると、これらのドメインのトレーニング効率が向上し、推論の一般化が大幅に向上します。
特に、私たちの混合トレーニングモデルは、複数のベンチマークにわたってdeepseek-r1-zero-qwen-32bよりも優れています。
これらの調査結果は、LLMのより広範な推論能力を進めるための貴重なリソースとしてSynlogicを位置付けています。
https://github.com/minimax-ai/synlogicで、データ合成パイプラインとSynlogic Datasetの両方をオープンソースします。

要約(オリジナル)

Recent advances such as OpenAI-o1 and DeepSeek R1 have demonstrated the potential of Reinforcement Learning (RL) to enhance reasoning abilities in Large Language Models (LLMs). While open-source replication efforts have primarily focused on mathematical and coding domains, methods and resources for developing general reasoning capabilities remain underexplored. This gap is partly due to the challenge of collecting diverse and verifiable reasoning data suitable for RL. We hypothesize that logical reasoning is critical for developing general reasoning capabilities, as logic forms a fundamental building block of reasoning. In this work, we present SynLogic, a data synthesis framework and dataset that generates diverse logical reasoning data at scale, encompassing 35 diverse logical reasoning tasks. The SynLogic approach enables controlled synthesis of data with adjustable difficulty and quantity. Importantly, all examples can be verified by simple rules, making them ideally suited for RL with verifiable rewards. In our experiments, we validate the effectiveness of RL training on the SynLogic dataset based on 7B and 32B models. SynLogic leads to state-of-the-art logical reasoning performance among open-source datasets, surpassing DeepSeek-R1-Distill-Qwen-32B by 6 points on BBEH. Furthermore, mixing SynLogic data with mathematical and coding tasks improves the training efficiency of these domains and significantly enhances reasoning generalization. Notably, our mixed training model outperforms DeepSeek-R1-Zero-Qwen-32B across multiple benchmarks. These findings position SynLogic as a valuable resource for advancing the broader reasoning capabilities of LLMs. We open-source both the data synthesis pipeline and the SynLogic dataset at https://github.com/MiniMax-AI/SynLogic.

arxiv情報

著者 Junteng Liu,Yuanxiang Fan,Zhuo Jiang,Han Ding,Yongyi Hu,Chi Zhang,Yiqi Shi,Shitong Weng,Aili Chen,Shiqi Chen,Yunan Huang,Mozhi Zhang,Pengyu Zhao,Junjie Yan,Junxian He
発行日 2025-05-28 16:04:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク