要約
エントロピー誘導シーケンス重み付け(EGSW)を導入します。これは、強化学習ベースの大手言語モデルの微調整のための利点とエントロピーに基づいて、生成された出力に重みを動的に割り当てることにより、探査と露出のトレードオフを強化する新しいアプローチです。
EGSWは、エントロピーの正則化をアドバンテージベースの重み付けと統合して、ポリシーの更新のバランスを取り、高次元の状態空間での効率的な探索を可能にします。
シーケンスにわたって温度スケールのソフトマックスの重み付けを使用することにより、EGSWはトレーニングの安定性を維持しながら、高報酬の高度不確実なステップを優先します。
もともとは、大規模な言語モデル(LLM)の微調整中にグループ相対ポリシーの最適化(GRPO)を改善するために開発されましたが、EGSWは他の強化学習(RL)アルゴリズムに一般化でき、段階的および軌跡ごとの設定の両方で実装できます。
経験的評価は、EGSWがGRPO推論能力を高め、サンプル効率の改善をもたらすことを示しています。
将来の作業では、EGSWの高度なRL方法論への適用を調査します。
要約(オリジナル)
We introduce Entropy-Guided Sequence Weighting (EGSW), a novel approach that enhances the exploration-exploitation tradeoff by dynamically assigning weights to generated outputs based on their advantage and entropy for Reinforcement Learning-based Large Language Model fine-tuning. EGSW integrates entropy regularization with advantage-based weighting to balance policy updates, enabling efficient exploration in high-dimensional state spaces. By employing temperature-scaled softmax weighting over sequences, EGSW prioritizing high-reward, high-uncertainty steps while maintaining training stability. Although originally developed to improve Group Relative Policy Optimization (GRPO) during large language model (LLM) fine-tuning, EGSW is generalizable to other reinforcement learning (RL) algorithms and can be implemented in both step-wise and trajectory-wise settings. Empirical evaluations demonstrate that EGSW enhances GRPO reasoning ability, yielding improvements in sample efficiency. Future work will explore the application of EGSW to advanced RL methodologies.
arxiv情報
著者 | Abdullah Vanlioglu |
発行日 | 2025-03-31 10:13:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google