Policy Gradient Methods for Risk-Sensitive Distributional Reinforcement Learning with Provable Convergence

要約

リスクに敏感な強化学習 (RL) は、多くの危険なアプリケーションにおいて信頼性の高いパフォーマンスを維持するために不可欠です。
ほとんどの RL 手法はランダムな累積コストの点推定を学習することを目的としていますが、分布 RL (DRL) はその分布全体を推定しようとします。
この配布により、コストに関する必要な情報がすべて提供され、リスクに敏感な環境でさまざまなリスク対策を処理するための統一フレームワークが実現します。
ただし、リスクに敏感な DRL のためのポリシー勾配手法の開発は、確率尺度の勾配を見つけることに関係するため、本質的により複雑です。
この論文では、一般的な一貫したリスク尺度を備えたリスクに敏感な DRL のための政策勾配法を紹介し、確率尺度の勾配の分析形式を提供します。
さらに、穏やかな滑らかさの仮定の下で、提案されたアルゴリズムの局所収束を証明します。
実用化のために、カテゴリカル分布政策評価と軌跡ベースの勾配推定に基づいたカテゴリカル分布政策勾配アルゴリズム (CDPG) も設計します。
確率論的な崖歩き環境での実験を通じて、DRL でリスクに敏感な設定を検討する利点を説明します。

要約(オリジナル)

Risk-sensitive reinforcement learning (RL) is crucial for maintaining reliable performance in many high-stakes applications. While most RL methods aim to learn a point estimate of the random cumulative cost, distributional RL (DRL) seeks to estimate the entire distribution of it. The distribution provides all necessary information about the cost and leads to a unified framework for handling various risk measures in a risk-sensitive setting. However, developing policy gradient methods for risk-sensitive DRL is inherently more complex as it pertains to finding the gradient of a probability measure. This paper introduces a policy gradient method for risk-sensitive DRL with general coherent risk measures, where we provide an analytical form of the probability measure’s gradient. We further prove the local convergence of the proposed algorithm under mild smoothness assumptions. For practical use, we also design a categorical distributional policy gradient algorithm (CDPG) based on categorical distributional policy evaluation and trajectory-based gradient estimation. Through experiments on a stochastic cliff-walking environment, we illustrate the benefits of considering a risk-sensitive setting in DRL.

arxiv情報

著者 Minheng Xiao,Xian Yu,Lei Ying
発行日 2024-05-23 16:16:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.OC パーマリンク