Measures of Variability for Risk-averse Policy Gradient

要約

リスク回避補強学習(RARL)は、不確実性の下での意思決定に不可欠です。これは、ハイステークアプリケーションで特に価値があります。
ただし、ほとんどの既存の作業は、リスク測定、たとえば条件付きバリューアットリスク(CVAR)に焦点を当てていますが、変動の測定値は未定です。
この論文では、変動性の9つの一般的な測定、すなわち、分散、ジニ偏差、平均偏差、平均メディアン偏差、標準偏差、測量間範囲、CVAR偏差、Semi_variance、およびsemi_standard偏差を包括的に研究します。
その中で、4つのメトリックがRARLで以前に研究されていません。
これらの非実施されていないメトリックのポリシー勾配式を導き出し、ジニ偏差の勾配推定を改善し、勾配特性を分析し、補強とPPOフレームワークに組み込み、リターンの分散を罰します。
私たちの経験的研究は、分散ベースのメトリックが不安定なポリシーの更新につながることを明らかにしています。
対照的に、CVAR偏差とジニ偏差は、異なるランダム性と評価ドメインで一貫したパフォーマンスを示し、リスクを回避するポリシーを効果的に学習しながら高いリターンを達成します。
平均偏差とセミスタンダード偏差も、さまざまなシナリオで競争力があります。
この作業は、RARLの変動測定の包括的な概要を提供し、リスクを認識した意思決定のための実用的な洞察を提供し、リスクメトリックとRARLアルゴリズムに関する将来の研究を導きます。

要約(オリジナル)

Risk-averse reinforcement learning (RARL) is critical for decision-making under uncertainty, which is especially valuable in high-stake applications. However, most existing works focus on risk measures, e.g., conditional value-at-risk (CVaR), while measures of variability remain underexplored. In this paper, we comprehensively study nine common measures of variability, namely Variance, Gini Deviation, Mean Deviation, Mean-Median Deviation, Standard Deviation, Inter-Quantile Range, CVaR Deviation, Semi_Variance, and Semi_Standard Deviation. Among them, four metrics have not been previously studied in RARL. We derive policy gradient formulas for these unstudied metrics, improve gradient estimation for Gini Deviation, analyze their gradient properties, and incorporate them with the REINFORCE and PPO frameworks to penalize the dispersion of returns. Our empirical study reveals that variance-based metrics lead to unstable policy updates. In contrast, CVaR Deviation and Gini Deviation show consistent performance across different randomness and evaluation domains, achieving high returns while effectively learning risk-averse policies. Mean Deviation and Semi_Standard Deviation are also competitive across different scenarios. This work provides a comprehensive overview of variability measures in RARL, offering practical insights for risk-aware decision-making and guiding future research on risk metrics and RARL algorithms.

arxiv情報

著者 Yudong Luo,Yangchen Pan,Jiaqi Tan,Pascal Poupart
発行日 2025-04-15 17:28:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク