要約
マルコフ意思決定プロセス (MDP) では、バリュー・アット・リスクなどの分位リスク尺度は、特定の結果に対する RL エージェントの好みをモデル化するための標準指標です。
この論文では、強力な収束性とパフォーマンス保証を備えた MDP における分位値最適化のための新しい Q 学習アルゴリズムを提案します。
このアルゴリズムは、分位 MDP の新しい単純な動的プログラム (DP) 分解を利用します。
以前の研究と比較して、私たちの DP 分解は、既知の遷移確率も複雑な鞍点方程式を解くことも必要とせず、他のモデルフリー RL アルゴリズムの適切な基盤として機能します。
表形式ドメインでの数値結果は、Q 学習アルゴリズムが DP バリアントに収束し、以前のアルゴリズムよりも優れていることを示しています。
要約(オリジナル)
In Markov decision processes (MDPs), quantile risk measures such as Value-at-Risk are a standard metric for modeling RL agents’ preferences for certain outcomes. This paper proposes a new Q-learning algorithm for quantile optimization in MDPs with strong convergence and performance guarantees. The algorithm leverages a new, simple dynamic program (DP) decomposition for quantile MDPs. Compared with prior work, our DP decomposition requires neither known transition probabilities nor solving complex saddle point equations and serves as a suitable foundation for other model-free RL algorithms. Our numerical results in tabular domains show that our Q-learning algorithm converges to its DP variant and outperforms earlier algorithms.
arxiv情報
著者 | Jia Lin Hau,Erick Delage,Esther Derman,Mohammad Ghavamzadeh,Marek Petrik |
発行日 | 2024-10-31 16:53:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google