On the convex formulations of robust Markov decision processes

要約

堅牢なマルコフ決定プロセス (MDP) は、不確実な環境における動的最適化のアプリケーションに使用され、広範囲に研究されています。
値の反復やポリシーの反復など、MDP の主要なプロパティとアルゴリズムの多くは、RMDP に直接拡張されます。
驚くべきことに、RMDP を解くための MDP 凸最適化定式化の類似物は知られていません。
この研究では、古典的な sa-長方形性と s-長方形性の仮定の下での RMDP の最初の凸最適化定式化について説明します。
エントロピー正則化と変数の指数関数的変化を使用することにより、多くの変数と、状態とアクションの数の制約多項式を含むが、制約に大きな係数を含む凸定式化を導き出します。
多面体、楕円体、またはエントロピーベースの不確実性セットを使用した RMDP の定式化をさらに単純化し、これらの場合、RMDP が指数円錐、二次円錐、および非負オルタントに基づく円錐プログラムとして再定式化できることを示します。
私たちの研究は、RMDP の新たな研究の方向性を切り開き、RMDP の扱いやすい凸型定式化を取得するための最初のステップとして機能します。

要約(オリジナル)

Robust Markov decision processes (MDPs) are used for applications of dynamic optimization in uncertain environments and have been studied extensively. Many of the main properties and algorithms of MDPs, such as value iteration and policy iteration, extend directly to RMDPs. Surprisingly, there is no known analog of the MDP convex optimization formulation for solving RMDPs. This work describes the first convex optimization formulation of RMDPs under the classical sa-rectangularity and s-rectangularity assumptions. By using entropic regularization and exponential change of variables, we derive a convex formulation with a number of variables and constraints polynomial in the number of states and actions, but with large coefficients in the constraints. We further simplify the formulation for RMDPs with polyhedral, ellipsoidal, or entropy-based uncertainty sets, showing that, in these cases, RMDPs can be reformulated as conic programs based on exponential cones, quadratic cones, and non-negative orthants. Our work opens a new research direction for RMDPs and can serve as a first step toward obtaining a tractable convex formulation of RMDPs.

arxiv情報

著者 Julien Grand-Clément,Marek Petrik
発行日 2023-12-13 14:40:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク