Policy Gradient Methods for Risk-Sensitive Distributional Reinforcement Learning with Provable Convergence

要約

リスクに敏感な強化学習(RL)は、ハイステークスアプリケーションで信頼できるパフォーマンスを維持するために重要です。
従来のRLメソッドは、ランダム累積コストのポイント推定を学ぶことを目的としていますが、分布RL(DRL)はITの全体を推定しようとしているため、さまざまなリスク測定を処理するための統一されたフレームワークにつながります。
ただし、リスクに敏感なDRLのポリシー勾配方法の開発は、確率測定の勾配を見つけることを伴うため、本質的に複雑です。
このペーパーでは、一般的なコヒーレントリスク測定を備えたリスク感受性DRLの新しいポリシー勾配法を紹介します。ここでは、分布の確率測定の分析形式を提供します。
実際に使用するために、いくつかの固定ポイントでサポートされているカテゴリファミリによって分布を近似するカテゴリー分布ポリシー勾配アルゴリズム(CDPG)を設計します。
さらに、不正確なポリシー評価と勾配推定の下で、有限サポートの最適性保証と有限項目収束保証を提供します。
確率的クリフウォークとカートポール環境に関する実験を通じて、DRLのリスクに敏感な設定を考慮することの利点を示します。

要約(オリジナル)

Risk-sensitive reinforcement learning (RL) is crucial for maintaining reliable performance in high-stakes applications. While traditional RL methods aim to learn a point estimate of the random cumulative cost, distributional RL (DRL) seeks to estimate the entire distribution of it, which leads to a unified framework for handling different risk measures. However, developing policy gradient methods for risk-sensitive DRL is inherently more complex as it involves finding the gradient of a probability measure. This paper introduces a new policy gradient method for risk-sensitive DRL with general coherent risk measures, where we provide an analytical form of the probability measure’s gradient for any distribution. For practical use, we design a categorical distributional policy gradient algorithm (CDPG) that approximates any distribution by a categorical family supported on some fixed points. We further provide a finite-support optimality guarantee and a finite-iteration convergence guarantee under inexact policy evaluation and gradient estimation. Through experiments on stochastic Cliffwalk and CartPole environments, we illustrate the benefits of considering a risk-sensitive setting in DRL.

arxiv情報

著者 Minheng Xiao,Xian Yu,Lei Ying
発行日 2025-01-31 15:53:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.OC パーマリンク