Online Difficulty Filtering for Reasoning Oriented Reinforcement Learning

要約

推論指向強化学習(RORL)は大規模言語モデル(LLM)の推論能力を強化する。しかし、RORLでは報酬が少ないため、効果的な学習は適切な難易度の問題の選択に大きく依存する。カリキュラム学習は難易度を調整することでこれに対処しようとしているが、多くの場合、静的なスケジュールに依存しており、最近のオンラインフィルタリング手法でさえ、理論的根拠とその有効性の体系的理解が不足している。本研究では、学習モデルがその場で中間的な精度を達成するような問題でバッチをキュレーションすることで、RORL学習、すなわちバランスの取れたオンライン難易度フィルタリングの効果を最大化できることを理論的・実証的に示す。我々はまず、初期方針と最適方針の間のKLダイバージェンスの下界が、サンプリングされた精度の分散で表現できることを導出する。これらの洞察に基づき、バランスドフィルタリングが下界を最大化し、より良い性能につながることを示す。5つの難易度の高い数学推論ベンチマークの実験結果から、バランスド・オンライン・フィルタリングは、通常のGRPOと比較して、AIMEでさらに10%、平均で4%の改善をもたらすことが示された。さらに、更なる分析により、サンプル効率と訓練時間効率の向上が示され、60%の訓練時間と訓練セットの量で、プレーンGRPOの最大報酬を上回る。

要約(オリジナル)

Reasoning-Oriented Reinforcement Learning (RORL) enhances the reasoning ability of Large Language Models (LLMs). However, due to the sparsity of rewards in RORL, effective training is highly dependent on the selection of problems of appropriate difficulty. Although curriculum learning attempts to address this by adjusting difficulty, it often relies on static schedules, and even recent online filtering methods lack theoretical grounding and a systematic understanding of their effectiveness. In this work, we theoretically and empirically show that curating the batch with the problems that the training model achieves intermediate accuracy on the fly can maximize the effectiveness of RORL training, namely balanced online difficulty filtering. We first derive that the lower bound of the KL divergence between the initial and the optimal policy can be expressed with the variance of the sampled accuracy. Building on those insights, we show that balanced filtering can maximize the lower bound, leading to better performance. Experimental results across five challenging math reasoning benchmarks show that balanced online filtering yields an additional 10% in AIME and 4% improvements in average over plain GRPO. Moreover, further analysis shows the gains in sample efficiency and training time efficiency, exceeding the maximum reward of plain GRPO within 60% training time and the volume of the training set.

arxiv情報

著者 Sanghwan Bae,Jiwoo Hong,Min Young Lee,Hanbyul Kim,JeongYeon Nam,Donghyun Kwak
発行日 2025-04-04 11:52:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク