Writing-Zero: Bridge the Gap Between Non-verifiable Tasks and Verifiable Rewards

要約

検証可能な報酬(RLVR)による強化学習により、大規模な言語モデル(LLM)は、数学やコード生成などの客観的なグラウンドトゥルースの回答を備えた推論タスクで顕著なブレークスルーを達成することができました。
ただし、品質評価が本質的に主観的であり、決定的な参照を欠いている、創造的な執筆やオープンエンドの対話など、検証できないタスクには大きなギャップが残っています。
これらのドメインの既存のアプローチは、多くの場合、人間の好みで訓練されたスカラー報酬モデルに依存しています。これは、限られた一般化に悩まされ、過剰な説明や長さのバイアスなど、ハッキングに報いる傾向があります。
この作業では、検証できないタスクと検証可能な報酬の間のギャップを埋める統一されたRLVRベースのトレーニングパラダイムを提案します。
ライティングプリンシルベースのペアワイズ生成報酬モデル(GENRM)と、新しいブートストラップ相対ポリシー最適化(BRPO)アルゴリズムを紹介します。
ペアワイズライティングGenRMは、自己一定の批評を活用して主観的評価を信頼できる検証可能な報酬に変換し、BRPOはRLトレーニング中のグループロールアウト内からの一時的な参照としてブートストラップされた応答を活用することにより、動的で参照のないペアワイズ比較を可能にします。
私たちのアプローチにより、LLMSは、スカラーリワードベースラインと比較して、一貫した改善と報酬ハッキングに対する強い抵抗を示しているように、監視された微調整なしで堅牢なライティング機能を開発することができます。
さらに、私たちの方法は、社内とオープンソースのライティングベンチマークの両方で競争結果を達成します。
私たちの調査結果は、RLVRフレームワークの下でルールベース、リファレンスベース、およびリファレンスフリーの報酬モデリングを統一する可能性を示唆しているため、すべての言語タスクに適用される包括的なスケーラブルなRLトレーニングパラダイムへの道を開いています。

要約(オリジナル)

Reinforcement learning with verifiable rewards (RLVR) has enabled large language models (LLMs) to achieve remarkable breakthroughs in reasoning tasks with objective ground-truth answers, such as mathematics and code generation. However, a significant gap remains for non-verifiable tasks, like creative writing and open-ended dialogue, where quality assessment is inherently subjective and lacks definitive references. Existing approaches for these domains often rely on scalar reward models trained with human preferences, which suffer from limited generalization and are prone to reward hacking, such as over-explanation and length bias. In this work, we propose a unified RLVR-based training paradigm that bridges the gap between non-verifiable tasks and verifiable rewards. We introduce a writing-principle-based pairwise Generative Reward Model (GenRM) and a novel Bootstrapped Relative Policy Optimization (BRPO) algorithm. The pairwise writing GenRM leverages self-principled critique to transform subjective assessments into reliable, verifiable rewards, while BRPO enables dynamic, reference-free pairwise comparison by leveraging a bootstrapped response as temporary reference from within group rollouts during RL training. Our approach empowers LLMs to develop robust writing capabilities without supervised fine-tuning, as demonstrated by Writing-Zero, which shows consistent improvement and strong resistance to reward hacking compared to scalar reward baselines. Furthermore, our method achieves competitive results on both in-house and open-source writing benchmarks. Our findings suggest the potential to unify rule-based, reference-based, and reference-free reward modeling under the RLVR framework, thus paving the way for a comprehensive and scalable RL training paradigm applicable across all language tasks.

arxiv情報

著者 Ruipeng Jia,Yunyi Yang,Yongbo Gai,Kai Luo,Shihao Huang,Jianhe Lin,Xiaoxi Jiang,Guanjun Jiang
発行日 2025-06-11 14:56:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク