Regularized Robust MDPs and Risk-Sensitive MDPs: Equivalence, Policy Gradient, and Sample Complexity

要約

この論文は、ロバストな MDP フレームワークの拡張である、正則化されたロバストなマルコフ決定プロセス (MDP) 問題の強化学習に焦点を当てています。
まず、リスクに敏感な MDP を導入し、リスクに敏感な MDP と正規化されたロバストな MDP との同等性を確立します。
この等価性は、正規化された RMDP に対処するための別の視点を提供し、効率的な学習アルゴリズムの設計を可能にします。
この等価性を考慮して、正則化ロバスト MDP 問題のポリシー勾配定理をさらに導出し、直接パラメーター化を使用した表形式の設定の下での正確なポリシー勾配法の大域収束を証明します。
また、KL 発散正則化項を使用した特定の正則化ロバスト MDP 問題に対して、サンプルベースのオフライン学習アルゴリズム、つまりロバスト フィット Z 反復 (RFZI) を提案し、アルゴリズムのサンプルの複雑さを分析します。
私たちの結果は数値シミュレーションによっても裏付けられています。

要約(オリジナル)

This paper focuses on reinforcement learning for the regularized robust Markov decision process (MDP) problem, an extension of the robust MDP framework. We first introduce the risk-sensitive MDP and establish the equivalence between risk-sensitive MDP and regularized robust MDP. This equivalence offers an alternative perspective for addressing the regularized RMDP and enables the design of efficient learning algorithms. Given this equivalence, we further derive the policy gradient theorem for the regularized robust MDP problem and prove the global convergence of the exact policy gradient method under the tabular setting with direct parameterization. We also propose a sample-based offline learning algorithm, namely the robust fitted-Z iteration (RFZI), for a specific regularized robust MDP problem with a KL-divergence regularization term and analyze the sample complexity of the algorithm. Our results are also supported by numerical simulations.

arxiv情報

著者 Runyu Zhang,Yang Hu,Na Li
発行日 2023-06-20 15:51:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク