Token-Efficient RL for LLM Reasoning

要約

我々は、LoRAのファインチューニングとの互換性に特に重点を置き、厳しいメモリと計算量の制限の下で大規模言語モデル(LLM)の推論用に調整された強化学習(RL)戦略を提案する。全列更新や個別の批評家ネットワークに依存するのではなく、メモリ使用量を削減し、学習を安定化させるために、出力トークンの情報量の少ないサブセットで動作する批評家フリーの手法を設計する。グループ相対政策最適化の確率的変形であるS-GRPOと、きめ細かなクレジット割り当てのためのトークンレベル接頭辞マッチング手法であるT-SPMOを紹介する。Qwen2-1.5Bに適用したところ、我々の手法はSVAMPベンチマークの精度を46%から70%以上に向上させ、多桁の乗算で強力な性能を示した。驚くべきことに、LoRAの下でのフルトークンGRPOは、基本モデルよりも改善されなかった。これは、選択的なトークンレベル最適化が、低パラメータ学習レジームにおいて暗黙の正則化器として機能する可能性を示唆している。

要約(オリジナル)

We propose reinforcement learning (RL) strategies tailored for reasoning in large language models (LLMs) under strict memory and compute limits, with a particular focus on compatibility with LoRA fine-tuning. Rather than relying on full-sequence updates or separate critic networks, we design critic-free methods that operate on a small, informative subset of output tokens to reduce memory usage and stabilize training. We introduce S-GRPO, a stochastic variant of Group Relative Policy Optimization, and T-SPMO, a token-level prefix matching approach for fine-grained credit assignment. Applied to Qwen2-1.5B, our methods raise accuracy on the SVAMP benchmark from 46% to over 70% and show strong performance on multi-digit multiplication. Surprisingly, full-token GRPO under LoRA fails to improve over the base model, suggesting that selective token-level optimization may act as an implicit regularizer in low-parameter training regimes.

arxiv情報

著者 Alan Lee,Harry Tong
発行日 2025-05-05 15:36:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク