要約
私たちは、堅牢なマルコフ意思決定プロセス (MDP) のための大域的な最適性を保証する汎用ポリシー勾配法を開発します。
ポリシー勾配法は、スケーラブルで効率的な性質があるため、動的な意思決定問題を解決するために広く使用されていますが、モデルの曖昧さを考慮してこれらの方法を適応させることは困難であり、多くの場合、堅牢なポリシーを学習することが非現実的になります。
この論文では、ロバストな MDP を解決するための新しいポリシー勾配法である Double-Loop Robust Policy Mirror Descent (DRPMD) を紹介します。
DRPMD は、反復ごとの適応許容度を備えたポリシー最適化に一般的なミラー降下更新ルールを採用し、グローバルに最適なポリシーへの収束を保証します。
直接パラメーター化とソフトマックス パラメーター化の両方での新しい収束結果を含む DRPMD の包括的な分析を提供し、Transition Mirror Ascent (TMA) を通じて内部問題の解決策に対する新しい洞察を提供します。
さらに、離散状態と連続状態アクション空間の両方に対して革新的なパラメトリック遷移カーネルを提案し、アプローチの適用可能性を広げます。
経験的な結果により、さまざまな困難な堅牢な MDP 設定にわたる DRPMD の堅牢性とグローバル コンバージェンスが検証されています。
要約(オリジナル)
We develop a generic policy gradient method with the global optimality guarantee for robust Markov Decision Processes (MDPs). While policy gradient methods are widely used for solving dynamic decision problems due to their scalable and efficient nature, adapting these methods to account for model ambiguity has been challenging, often making it impractical to learn robust policies. This paper introduces a novel policy gradient method, Double-Loop Robust Policy Mirror Descent (DRPMD), for solving robust MDPs. DRPMD employs a general mirror descent update rule for the policy optimization with adaptive tolerance per iteration, guaranteeing convergence to a globally optimal policy. We provide a comprehensive analysis of DRPMD, including new convergence results under both direct and softmax parameterizations, and provide novel insights into the inner problem solution through Transition Mirror Ascent (TMA). Additionally, we propose innovative parametric transition kernels for both discrete and continuous state-action spaces, broadening the applicability of our approach. Empirical results validate the robustness and global convergence of DRPMD across various challenging robust MDP settings.
arxiv情報
著者 | Qiuhao Wang,Shaohang Xu,Chin Pang Ho,Marek Petrik |
発行日 | 2024-10-31 15:34:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google