要約
ほとんどのモデルは直接的な動的計画法方程式を認めず、複雑な履歴依存のポリシーを必要とするため、割引 MDP でリスク回避目標を最適化することは困難です。
この論文では、エントロピー・リスク尺度(ERM)およびエントロピー・バリュー・アット・リスク(EVaR)リスク尺度に基づいたリスク回避的な{\em 総報酬基準}が、定常的なポリシーによって最適化でき、次のことが簡単になることを示します。
分析、解釈、展開します。
最適なポリシーを計算するために、指数値反復、ポリシー反復、および線形計画法を提案します。
以前の研究と比較して、私たちの結果は一時的な MDP の比較的穏やかな条件のみを必要とし、肯定的な報酬と否定的な報酬の両方を考慮しています。
私たちの結果は、広範囲のリスク回避型強化学習領域では、合計報酬基準が割引基準よりも好ましい可能性があることを示しています。
要約(オリジナル)
Optimizing risk-averse objectives in discounted MDPs is challenging because most models do not admit direct dynamic programming equations and require complex history-dependent policies. In this paper, we show that the risk-averse {\em total reward criterion}, under the Entropic Risk Measure (ERM) and Entropic Value at Risk (EVaR) risk measures, can be optimized by a stationary policy, making it simple to analyze, interpret, and deploy. We propose exponential value iteration, policy iteration, and linear programming to compute optimal policies. Compared with prior work, our results only require the relatively mild condition of transient MDPs and allow for {\em both} positive and negative rewards. Our results indicate that the total reward criterion may be preferable to the discounted criterion in a broad range of risk-averse reinforcement learning domains.
arxiv情報
著者 | Xihong Su,Julien Grand-Clément,Marek Petrik |
発行日 | 2024-12-18 16:10:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google