d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning

要約

最近の大規模言語モデル(LLM)は、オンライン強化学習(RL)の恩恵を受けた強力な推論能力を実証している。これらの能力は、主に左から右への自己回帰(AR)生成パラダイムにおいて実証されてきた。これとは対照的に、拡散に基づく非自己回帰的なパラダイムは、テキストを粗から細へ生成する。最近の拡散に基づく大規模言語モデル(dLLM)は、ARと比較して競争力のある言語モデリング性能を達成しているが、dLLMがLLM推論の最近の進歩を活用できるかどうかは不明である。この目的のために、我々は、教師付き微調整(SFT)とRLの組み合わせにより、事前に訓練されたマスクされたdLLMを推論モデルに適応させるフレームワークであるd1を提案する。具体的には、我々は事前に訓練されたdLLMの推論を改善するための技術を開発し、拡張する。(a)我々は、知識を抽出し、既存のデータセットから直接自己改善行動を植え付けるために、マスクされたSFT技術を利用する。実証的研究を通じて、複数の数学的・計画的ベンチマークにおける、異なるポストトレーニングレシピの性能を調査する。その結果、d1が最高の性能をもたらし、最先端のdLLMの性能を大幅に改善することがわかった。我々のコードはhttps://dllm-reasoning.github.io/。

要約(オリジナル)

Recent large language models (LLMs) have demonstrated strong reasoning capabilities that benefits from online reinforcement learning (RL). These capabilities have primarily been demonstrated within the left-to-right autoregressive (AR) generation paradigm. In contrast, non-autoregressive paradigms based on diffusion generate text in a coarse-to-fine manner. Although recent diffusion-based large language models (dLLMs) have achieved competitive language modeling performance compared to their AR counterparts, it remains unclear if dLLMs can also leverage recent advances in LLM reasoning. To this end, we propose d1, a framework to adapt pre-trained masked dLLMs into reasoning models via a combination of supervised finetuning (SFT) and RL. Specifically, we develop and extend techniques to improve reasoning in pretrained dLLMs: (a) we utilize a masked SFT technique to distill knowledge and instill self-improvement behavior directly from existing datasets, and (b) we introduce a novel critic-free, policy-gradient based RL algorithm called diffu-GRPO, the first integration of policy gradient methods to masked dLLMs. Through empirical studies, we investigate the performance of different post-training recipes on multiple mathematical and planning benchmarks. We find that d1 yields the best performance and significantly improves performance of a state-of-the-art dLLM. Our code is released at https://dllm-reasoning.github.io/.

arxiv情報

著者 Siyan Zhao,Devaansh Gupta,Qinqing Zheng,Aditya Grover
発行日 2025-06-03 17:02:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク