Entropy-guided sequence weighting for efficient exploration in RL-based LLM fine-tuning

要約

エントロピー誘導シーケンス重み付け(EGSW)を導入します。これは、強化学習ベースの大手言語モデルの微調整のための利点とエントロピーに基づいて、生成された出力に重みを動的に割り当てることにより、探査と露出のトレードオフを強化する新しいアプローチです。
EGSWは、エントロピーの正則化をアドバンテージベースの重み付けと統合して、ポリシーの更新のバランスを取り、高次元の状態空間での効率的な探索を可能にします。
シーケンスにわたって温度スケールのソフトマックスの重み付けを使用することにより、EGSWはトレーニングの安定性を維持しながら、高報酬の高度不確実なステップを優先します。
もともとは、大規模な言語モデル(LLM)の微調整中にグループ相対ポリシーの最適化(GRPO)を改善するために開発されましたが、EGSWは他の強化学習(RL)アルゴリズムに一般化でき、段階的および軌跡ごとの設定の両方で実装できます。
経験的評価は、EGSWがGRPO推論能力を高め、サンプル効率の改善をもたらすことを示しています。
将来の作業では、EGSWの高度なRL方法論への適用を調査します。

要約(オリジナル)

We introduce Entropy-Guided Sequence Weighting (EGSW), a novel approach that enhances the exploration-exploitation tradeoff by dynamically assigning weights to generated outputs based on their advantage and entropy for Reinforcement Learning-based Large Language Model fine-tuning. EGSW integrates entropy regularization with advantage-based weighting to balance policy updates, enabling efficient exploration in high-dimensional state spaces. By employing temperature-scaled softmax weighting over sequences, EGSW prioritizing high-reward, high-uncertainty steps while maintaining training stability. Although originally developed to improve Group Relative Policy Optimization (GRPO) during large language model (LLM) fine-tuning, EGSW is generalizable to other reinforcement learning (RL) algorithms and can be implemented in both step-wise and trajectory-wise settings. Empirical evaluations demonstrate that EGSW enhances GRPO reasoning ability, yielding improvements in sample efficiency. Future work will explore the application of EGSW to advanced RL methodologies.

arxiv情報

著者 Abdullah Vanlioglu
発行日 2025-03-31 10:13:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク