要約
ポリシー勾配 (PG) を利用して条件付きリスク値 (CVaR) を最適化する強化学習アルゴリズムは、サンプルの非効率性という重大な課題に直面しており、実用化の妨げとなっています。
この非効率性は 2 つの主な事実から生じています。1 つは、テールエンドのパフォーマンスに焦点を当てているため、多くのサンプリングされた軌跡が見落とされているということ、もう 1 つは、リターン分布の下端が平坦すぎる場合に、勾配が消失する可能性であるということです。
これらの課題に対処するために、単純な混合ポリシーのパラメーター化を提案します。
この方法では、リスク中立ポリシーと調整可能なポリシーを統合して、リスク回避ポリシーを形成します。
この戦略を採用することにより、収集されたすべての軌跡を政策の更新に利用することができ、リスク中立コンポーネントを通じてより高いリターンを刺激することで勾配の消失の問題に対処し、テールを持ち上げてフラット化を防ぎます。
私たちの実証研究により、この混合パラメータ化がさまざまなベンチマーク ドメインにわたって独自に効果的であることが明らかになりました。
特に、従来の CVaR-PG が合理的なポリシーを学習できない一部の Mujoco 環境において、リスク回避型 CVaR ポリシーを特定することに優れています。
要約(オリジナル)
Reinforcement learning algorithms utilizing policy gradients (PG) to optimize Conditional Value at Risk (CVaR) face significant challenges with sample inefficiency, hindering their practical applications. This inefficiency stems from two main facts: a focus on tail-end performance that overlooks many sampled trajectories, and the potential of gradient vanishing when the lower tail of the return distribution is overly flat. To address these challenges, we propose a simple mixture policy parameterization. This method integrates a risk-neutral policy with an adjustable policy to form a risk-averse policy. By employing this strategy, all collected trajectories can be utilized for policy updating, and the issue of vanishing gradients is counteracted by stimulating higher returns through the risk-neutral component, thus lifting the tail and preventing flatness. Our empirical study reveals that this mixture parameterization is uniquely effective across a variety of benchmark domains. Specifically, it excels in identifying risk-averse CVaR policies in some Mujoco environments where the traditional CVaR-PG fails to learn a reasonable policy.
arxiv情報
著者 | Yudong Luo,Yangchen Pan,Han Wang,Philip Torr,Pascal Poupart |
発行日 | 2024-06-28 16:31:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google