要約
最近のパラダイムは、検証可能な報酬に関するDeepSeek-R1-Zeroスタイルの強化学習(RL)を使用して、大規模な言語モデル(LLMS)のトレーニングに移行しました。これは、コードと数学的推論の印象的な進歩をもたらしました。
ただし、この方法論は、ルールベースの回答検証が可能であり、化学、ヘルスケア、エンジニアリング、法律、生物学、ビジネス、経済学などの現実世界ドメインに自然に拡張されていないタスクに限定されています。
現在の実用的な回避策は、モデルベースの検証剤として追加のLLMを使用しています。
ただし、これにより、強力な検証剤LLMへの依存、ハッキングに報酬を与える可能性があり、トレーニング中に検証装置モデルをメモリに維持するという実際的な負担などの問題が発生します。
これに対処し、DeepSeek-R1-Zeroスタイルのトレーニングを一般的な推論ドメインに拡張するために、検証に回答し、代わりにRLを使用して参照回答を生成する確率を直接最大化する検証剤フリーメソッド(Verifree)を提案します。
Verifreeを検証剤ベースの方法と比較し、MMLU-Pro、GPQA、SuperGPQA、および数学関連のベンチマークを横断する広範な評価で、その重要な実用的な利点と計算要件の削減に加えて、検証剤ベースの方法を超えることを実証します。
さらに、この方法についての洞察を複数の観点から提供します。統一されたモデルでのポリシーと暗黙の検証者の両方をトレーニングするエレガントな統合として、および変動最適化アプローチとして。
コードはhttps://github.com/sail-sg/verifreeで入手できます。
要約(オリジナル)
The recent paradigm shift towards training large language models (LLMs) using DeepSeek-R1-Zero-style reinforcement learning (RL) on verifiable rewards has led to impressive advancements in code and mathematical reasoning. However, this methodology is limited to tasks where rule-based answer verification is possible and does not naturally extend to real-world domains such as chemistry, healthcare, engineering, law, biology, business, and economics. Current practical workarounds use an additional LLM as a model-based verifier; however, this introduces issues such as reliance on a strong verifier LLM, susceptibility to reward hacking, and the practical burden of maintaining the verifier model in memory during training. To address this and extend DeepSeek-R1-Zero-style training to general reasoning domains, we propose a verifier-free method (VeriFree) that bypasses answer verification and instead uses RL to directly maximize the probability of generating the reference answer. We compare VeriFree with verifier-based methods and demonstrate that, in addition to its significant practical benefits and reduced compute requirements, VeriFree matches and even surpasses verifier-based methods on extensive evaluations across MMLU-Pro, GPQA, SuperGPQA, and math-related benchmarks. Moreover, we provide insights into this method from multiple perspectives: as an elegant integration of training both the policy and implicit verifier in a unified model, and as a variational optimization approach. Code is available at https://github.com/sail-sg/VeriFree.
arxiv情報
著者 | Xiangxin Zhou,Zichen Liu,Anya Sims,Haonan Wang,Tianyu Pang,Chongxuan Li,Liang Wang,Min Lin,Chao Du |
発行日 | 2025-05-27 17:56:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google