Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains

要約

検証可能な報酬(RLVR)による強化学習は、特に構造化された参照回答が検証のためにアクセスできる場合、大規模な言語モデル(LLM)の数学的推論とコーディングパフォーマンスの強化に大きな成功を示しています。
ただし、より広範で構造化されていないドメインへの拡張は未開拓のままです。
この作業では、医学、化学、心理学、経済学、教育を含む多様な現実世界のドメインにわたるRLVRの有効性とスケーラビリティを調査します。
広範なドメインタスクに関するバイナリ検証判断は、専門家が書いた参照回答が存在する場合、さまざまなLLMで高い一貫性を示すことを明らかにします。
この発見に動機付けられて、私たちは、特に自由形式の非構造化された回答シナリオで、バイナリの検証によってもたらされる制限を克服するために、柔らかくモデルベースの報酬信号を生成する生成スコアリング手法を利用します。
さらに、ドメイン固有の広範な注釈を必要とせずに、比較的小(7b)LLMを使用して、クロスドメイン生成報酬モデルをトレーニングする可能性を実証します。
包括的な実験を通じて、RLVRフレームワークは明確なパフォーマンスの向上を確立し、フリーフォームの設定でドメイン全体でQWEN2.5-72BやDeepSeek-R1-Distill-QWEN-32Bなどの最先端のオープンソースアライメントモデルを大幅に上回ります。
私たちのアプローチは、RLVRの堅牢性、柔軟性、およびスケーラビリティを特に強化し、複雑でノイズの多いラベルシナリオにおける実用的な強化学習アプリケーションへの実質的なステップを表します。

要約(オリジナル)

Reinforcement learning with verifiable rewards (RLVR) has demonstrated significant success in enhancing mathematical reasoning and coding performance of large language models (LLMs), especially when structured reference answers are accessible for verification. However, its extension to broader, less structured domains remains unexplored. In this work, we investigate the effectiveness and scalability of RLVR across diverse real-world domains including medicine, chemistry, psychology, economics, and education, where structured reference answers are typically unavailable. We reveal that binary verification judgments on broad-domain tasks exhibit high consistency across various LLMs provided expert-written reference answers exist. Motivated by this finding, we utilize a generative scoring technique that yields soft, model-based reward signals to overcome limitations posed by binary verifications, especially in free-form, unstructured answer scenarios. We further demonstrate the feasibility of training cross-domain generative reward models using relatively small (7B) LLMs without the need for extensive domain-specific annotation. Through comprehensive experiments, our RLVR framework establishes clear performance gains, significantly outperforming state-of-the-art open-source aligned models such as Qwen2.5-72B and DeepSeek-R1-Distill-Qwen-32B across domains in free-form settings. Our approach notably enhances the robustness, flexibility, and scalability of RLVR, representing a substantial step towards practical reinforcement learning applications in complex, noisy-label scenarios.

arxiv情報

著者 Yi Su,Dian Yu,Linfeng Song,Juntao Li,Haitao Mi,Zhaopeng Tu,Min Zhang,Dong Yu
発行日 2025-04-01 14:48:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク