General-Reasoner: Advancing LLM Reasoning Across All Domains

要約

強化学習(RL)は最近、大規模な言語モデル(LLM)の推論能力を高める上で強い可能性を実証しました。
特に、DeepSeek-R1-Zeroによって導入された「ゼロ」強化学習により、中間の監視付き微調整段階に依存することなく、ベースLLMの直接RLトレーニングが可能になります。
これらの進歩にもかかわらず、LLMの推論の現在の作業は、主にデータの豊富さと回答検証の容易さが原因で、主に数学的およびコーディングドメインに焦点を当てています。
これにより、そのようなモデルの適用性と一般化がより広範なドメインに制限されます。このドメインでは、質問には多様な回答表現があり、データはより少ないです。
この論文では、多様なドメイン全体のLLM推論能力を強化するために設計された新しいトレーニングパラダイムである一般的な季節を提案します。
私たちの重要な貢献には、次のものが含まれます。(1)幅広い分野をカバーするWebクローリングによってキュレーションされた検証可能な回答を含む、質問の大規模で高品質のデータセットの構築。
(2)伝統的なルールベースの検証を、考え方と文脈の認識の能力に置き換える生成モデルベースの回答検証を開発する。
一連のモデルをトレーニングし、物理学、化学、金融、電子機器などの広いドメインをカバーする幅広いデータセットでそれらを評価します。これらの12のベンチマークにわたる包括的な評価(例:MMLU-PRO、GPQA、SuperGPQA、Theoremqa、BBEH、MATH AMの一般的なパフォーマンスを維持する一般的なraseferingのパフォーマンスを実証していることが示されています。
数学的推論タスクにおける有効性。

要約(オリジナル)

Reinforcement learning (RL) has recently demonstrated strong potential in enhancing the reasoning capabilities of large language models (LLMs). Particularly, the ‘Zero’ reinforcement learning introduced by Deepseek-R1-Zero, enables direct RL training of base LLMs without relying on an intermediate supervised fine-tuning stage. Despite these advancements, current works for LLM reasoning mainly focus on mathematical and coding domains, largely due to data abundance and the ease of answer verification. This limits the applicability and generalization of such models to broader domains, where questions often have diverse answer representations, and data is more scarce. In this paper, we propose General-Reasoner, a novel training paradigm designed to enhance LLM reasoning capabilities across diverse domains. Our key contributions include: (1) constructing a large-scale, high-quality dataset of questions with verifiable answers curated by web crawling, covering a wide range of disciplines; and (2) developing a generative model-based answer verifier, which replaces traditional rule-based verification with the capability of chain-of-thought and context-awareness. We train a series of models and evaluate them on a wide range of datasets covering wide domains like physics, chemistry, finance, electronics etc. Our comprehensive evaluation across these 12 benchmarks (e.g. MMLU-Pro, GPQA, SuperGPQA, TheoremQA, BBEH and MATH AMC) demonstrates that General-Reasoner outperforms existing baseline methods, achieving robust and generalizable reasoning performance while maintaining superior effectiveness in mathematical reasoning tasks.

arxiv情報

著者 Xueguang Ma,Qian Liu,Dongfu Jiang,Ge Zhang,Zejun Ma,Wenhu Chen
発行日 2025-05-21 17:55:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク