Expanding RL with Verifiable Rewards Across Diverse Domains

要約

検証可能な報酬(RLVR)を備えた強化学習(RL)は、十分に構築された参照回答が利用できる数学的推論とコーディングタスクで有望な結果を示しています。
ただし、より広いドメインへの適用性は未脱カタリングのままです。
この作業では、医学、化学、心理学、経済学などのより多様なドメインへのRLVRの拡張を研究します。
客観的な参照回答が存在する場合、異なる大規模な言語モデル(LLMS)にわたるバイナリ判断において高い一致を観察します。これは、ドメイン固有の報酬モデルをトレーニングするための大規模な注釈の必要性に挑戦します。
非構造化された参照回答を処理する際のバイナリ報酬の制限に対処するために、モデルベースのソフトスコアリングをRLVRにさらに組み込み、柔軟性を向上させます。
私たちの実験は、蒸留された生成報酬モデルが効果的なクロスドメイン検証剤として機能し、ドメイン固有の注釈を必要とせずにRLの信頼できる報酬信号を提供できることを示しています。
報酬モデルに対してさまざまなRLアルゴリズムを使用してベース7Bモデルを微調整することにより、フリーフルムの回答の環境でドメインを横切る大マージンを越えて、最先端のオープンソースアライメントLLMを上回るポリシーを取得します。
これにより、RLVRの堅牢性とスケーラビリティが強化され、ノイズの多いラベルまたは弱いラベルを使用して、実際のアプリケーションの可能性を強調します。

要約(オリジナル)

Reinforcement learning (RL) with verifiable rewards (RLVR) has shown promising results in mathematical reasoning and coding tasks where well-structured reference answers are available. However, its applicability to broader domains remains underexplored. In this work, we study the extension of RLVR to more diverse domains such as medicine, chemistry, psychology, and economics. We observe high agreement in binary judgments across different large language models (LLMs) when objective reference answers exist, which challenges the necessity of large-scale annotation for training domain-specific reward models. To address the limitations of binary rewards when handling unstructured reference answers, we further incorporate model-based soft scoring into RLVR to improve its flexibility. Our experiments show that a distilled generative reward model can serve as an effective cross-domain verifier, providing reliable reward signals for RL without requiring domain-specific annotations. By fine-tuning a base 7B model using various RL algorithms against our reward model, we obtain policies that outperform state-of-the-art open-source aligned LLMs such as Qwen2.5-72B-Instruct and DeepSeek-R1-Distill-Qwen-32B by a large margin, across domains in free-form answer settings. This also strengthens RLVR’s robustness and scalability, highlighting its potential for real-world applications with noisy or weak labels.

arxiv情報

著者 Yi Su,Dian Yu,Linfeng Song,Juntao Li,Haitao Mi,Zhaopeng Tu,Min Zhang,Dong Yu
発行日 2025-03-31 08:22:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク