Wasserstein Adaptive Value Estimation for Actor-Critic Reinforcement Learning

要約

俳優critic(Wave)のワッサースタイン適応価値推定を提示します。これは、適応型ワッサースタインの正則化を通じて、深い補強学習の安定性を高めるアプローチです。
私たちの方法は、批評家の損失関数に適応的に加重されたワッサースタインの正規化項を組み込むことにより、アクターcriticアルゴリズムの固有の不安定性に対処します。
波が$ \ mathcal {o} \ left(\ frac {1} {k} \ right)$ convergenceレートを達成し、批評家の平均四角誤差の収束率を達成し、ワッサースタインベースの正則化を通じて安定性の理論的保証を提供することを証明します。
計算効率のためにシンクホーン近似を使用して、当社のアプローチは、エージェントのパフォーマンスに基づいて正則化を自動的に調整します。
理論的分析と実験結果は、波が標準的な俳優と批判的な方法と比較して優れた性能を達成することを示しています。

要約(オリジナル)

We present Wasserstein Adaptive Value Estimation for Actor-Critic (WAVE), an approach to enhance stability in deep reinforcement learning through adaptive Wasserstein regularization. Our method addresses the inherent instability of actor-critic algorithms by incorporating an adaptively weighted Wasserstein regularization term into the critic’s loss function. We prove that WAVE achieves $\mathcal{O}\left(\frac{1}{k}\right)$ convergence rate for the critic’s mean squared error and provide theoretical guarantees for stability through Wasserstein-based regularization. Using the Sinkhorn approximation for computational efficiency, our approach automatically adjusts the regularization based on the agent’s performance. Theoretical analysis and experimental results demonstrate that WAVE achieves superior performance compared to standard actor-critic methods.

arxiv情報

著者 Ali Baheri,Zahra Shahrooei,Chirayu Salgarkar
発行日 2025-03-07 18:35:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY, stat.ML パーマリンク