要約
強化学習(RL)は、特に推論能力を高めるために、大規模な言語モデル(LLMS)を微調整するための効果的なアプローチとなっています。
ただし、RLの微調整は非常にリソース集約型のままであり、既存の作業により、データ効率の問題がほとんど見落とされています。
このホワイトペーパーでは、LLM RL微調整のデータ効率を向上させるための2つの手法を提案しています。
適応困難の概念を紹介して、オンラインデータの選択をガイドし、有益な学習信号を生成する可能性が高い中程度の難易度の質問に優先順位を付けます。
適応難易度を効率的に推定するために、小さな参照セットのみにロールアウトを必要とする注意ベースのフレームワークを開発します。
残りの質問の適応難しさは、このセットとの類似性に基づいて推定されます。
ロールアウトコストをさらに削減するために、最近のロールアウトを再利用するロールアウトリプレイメカニズムを導入し、安定した更新を維持しながらステップごとの計算を下げます。
6 LLM-DATASETの組み合わせにわたる広範な実験では、この方法がRLの微調整時間を25%減少させて65%減らして、元のGRPOアルゴリズムと同じレベルのパフォーマンスに到達することが示されています。
要約(オリジナル)
Reinforcement learning (RL) has become an effective approach for fine-tuning large language models (LLMs), particularly to enhance their reasoning capabilities. However, RL fine-tuning remains highly resource-intensive, and existing work has largely overlooked the problem of data efficiency. In this paper, we propose two techniques to improve data efficiency in LLM RL fine-tuning: difficulty-targeted online data selection and rollout replay. We introduce the notion of adaptive difficulty to guide online data selection, prioritizing questions of moderate difficulty that are more likely to yield informative learning signals. To estimate adaptive difficulty efficiently, we develop an attention-based framework that requires rollouts for only a small reference set of questions. The adaptive difficulty of the remaining questions is then estimated based on their similarity to this set. To further reduce rollout cost, we introduce a rollout replay mechanism that reuses recent rollouts, lowering per-step computation while maintaining stable updates. Extensive experiments across 6 LLM-dataset combinations show that our method reduces RL fine-tuning time by 25% to 65% to reach the same level of performance as the original GRPO algorithm.
arxiv情報
著者 | Yifan Sun,Jingyan Shen,Yibin Wang,Tianyu Chen,Zhendong Wang,Mingyuan Zhou,Huan Zhang |
発行日 | 2025-06-05 17:55:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google