Return Capping: Sample-Efficient CVaR Policy Gradient Optimisation

要約

ポリシーグラデーション(PG)を使用して条件付き値(CVAR)を最適化する場合、電流は、大部分のトランスジェクターを破棄することに依存しており、サンプル効率が低下します。
単にそれらを破棄するのではなく、トレーニングで使用される軌道の総リターンをキャップすることにより、CVAR最適化問題の再定式化を提案し、これがキャップが適切に設定されている場合、元の問題に相当することを示します。
多くの環境で経験的な結果をもたらし、この問題のこの再定式化は、ベースラインと比較してパフォーマンスが一貫して改善されることを示しています。

要約(オリジナル)

When optimising for conditional value at risk (CVaR) using policy gradients (PG), current meth- ods rely on discarding a large proportion of tra- jectories, resulting in poor sample efficiency. We propose a reformulation of the CVaR optimisation problem by capping the total return of trajecto- ries used in training, rather than simply discard- ing them, and show that this is equivalent to the original problem if the cap is set appropriately. We show, with empirical results in an number of environments, that this reformulation of the prob- lem results in consistently improved performance compared to baselines.

arxiv情報

著者 Harry Mead,Clarissa Costen,Bruno Lacerda,Nick Hawes
発行日 2025-04-29 16:04:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク