Reinforcement Learning for LLM Reasoning Under Memory Constraints

要約

メモリと計算の制約の下で、大規模な言語モデル(LLMS)のターゲットを絞った問題スペース内で推論を強化するための強化学習(RL)テクニックを探ります。
私たちの焦点は、学術環境の一般的な制限である単一の40GB GPUのLora微調整と互換性がある批評家のない方法に焦点を当てています。
グループ相対ポリシーの最適化のメモリ効率の高いバリアントであるS-GRPOと、細かいクレジット割り当てのためのトークンレベルのプレフィックスマッチング戦略であるT-SPMOを紹介します。
リソースが限られているにもかかわらず、QWEN2-1.5Bの微調整に使用する場合、両方の方法は、LORAトレーニングを使用してSVAMPベンチマークの精度を46%から70%を超えて大幅に改善します。
T-SPMOは、ハードウェアの制約に基づくRL微調整の可能性を強調して、マルチ桁の乗算タスクにも優れています。
さらに、LORA微調整中のフルトークンGRPOベースラインは、いずれのタスクでもモデルパフォーマンス(ベースモデルと比較して)を改善しなかったことがわかり、パラメーターの小さなサブセットのみが更新された場合にトレーニングを安定させる正規化の形式としてメモリ効率の高い方法として機能する可能性があることが示唆されています。

要約(オリジナル)

We explore reinforcement learning (RL) techniques to enhance reasoning within targeted problem spaces in large language models (LLMs) under memory and compute constraints. Our focus is on critic-free methods compatible with LoRA fine-tuning on a single 40GB GPU, a common limitation in academic settings. We introduce S-GRPO, a memory-efficient variant of Group Relative Policy Optimization, and T-SPMO, a token-level prefix matching strategy for fine-grained credit assignment. Despite limited resources, when used to fine-tune Qwen2-1.5B both methods significantly improve SVAMP benchmark accuracy from 46% to above 70% using LoRA training. T-SPMO also excels in multi-digit multiplication tasks, underscoring the potential of RL fine-tuning under hardware constraints. Additionally, we find that our full-token GRPO baseline under LoRA fine-tuning did not improve model performance (compared to base model) on either task, suggesting that our memory-efficient methods may act as a form of regularization that stabilizes training when only a small subset of parameters are updated.

arxiv情報

著者 Alan Lee,Harry Tong
発行日 2025-04-29 14:58:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク