Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback

要約

スカラー報酬のような数値フィードバックを用いた強化学習(RL)の最近の進歩は、大規模言語モデル(LLM)の複雑な推論能力を著しく向上させた。この成功にもかかわらず、我々は、数値フィードバックのみを用いたRLが遭遇する3つの主要な課題を特定する。そして、RLで調整されたモデルは、性能の停滞を示した後でも、批評という形の自然言語フィードバックを活用することで、失敗が続く問題に対して正しい改良を生成できることを実証する。この洞察に基づき、我々はCritique-GRPOを提案する。Critique-GRPOは、効果的な政策最適化のために自然言語と数値フィードバックの両方を統合するオンラインRLフレームワークである。Critique-GRPOは、LLMが探索を維持しながら、初期応答と批評に導かれた改良から同時に学習することを可能にする。Qwen2.5-7B-BaseとQwen3-8B-Baseを用いた広範な実験により、Critique-GRPOは、8つの難易度の高い数学、STEM、一般推論タスクにおいて、教師あり学習ベースやRLベースの微調整アプローチを一貫して凌駕し、平均pass@1スコアをそれぞれ約4.5%と5%向上させることが示された。特に、Critique-GRPOは、オンラインRLに専門家のデモンストレーションを組み込んだ強力なベースラインを上回っている。さらに分析を進めると、政策探索に関する2つの重要な洞察が明らかになった。(1)エントロピーが高くても、探索による効率的な学習が保証されるとは限らないこと、(2)回答が長くても、より効果的な探索につながるとは限らないこと。

要約(オリジナル)

Recent advances in reinforcement learning (RL) with numerical feedback, such as scalar rewards, have significantly enhanced the complex reasoning capabilities of large language models (LLMs). Despite this success, we identify three key challenges encountered by RL with solely numerical feedback: performance plateaus, limited effectiveness of self-reflection, and persistent failures. We then demonstrate that RL-finetuned models, even after exhibiting performance plateaus, can generate correct refinements on persistently failed problems by leveraging natural language feedback in the form of critiques. Building on this insight, we propose Critique-GRPO, an online RL framework that integrates both natural language and numerical feedback for effective policy optimization. Critique-GRPO enables LLMs to learn from initial responses and critique-guided refinements simultaneously while maintaining exploration. Extensive experiments using Qwen2.5-7B-Base and Qwen3-8B-Base show that Critique-GRPO consistently outperforms supervised learning-based and RL-based fine-tuning approaches across eight challenging mathematical, STEM, and general reasoning tasks, improving average pass@1 scores by approximately 4.5% and 5%, respectively. Notably, Critique-GRPO surpasses a strong baseline that incorporates expert demonstrations within online RL. Further analysis reveals two critical insights about policy exploration: (1) higher entropy does not always guarantee efficient learning from exploration, and (2) longer responses do not necessarily lead to more effective exploration.

arxiv情報

著者 Xiaoying Zhang,Hao Sun,Yipeng Zhang,Kaituo Feng,Chaochao Lu,Chao Yang,Helen Meng
発行日 2025-06-04 13:45:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク