Solving Long-run Average Reward Robust MDPs via Stochastic Games

要約

マルコフ意思決定プロセス (MDP) は、不確実性の下での逐次的な意思決定のための標準フレームワークを提供します。
ただし、MDP は移行確率の不確実性を考慮していません。
堅牢なマルコフ決定プロセス (RMDP) は、各遷移に単一の確率値ではなく不確実性セットを割り当てることで、MDP のこの欠点に対処します。
この研究では、すべての不確実性セットがポリトープであるポリトピック RMDP を考慮し、長期平均報酬ポリトピック RMDP を解く問題を研究します。
我々はこの問題について新しい視点を提示し、この問題が有限の状態空間とアクション空間を使用した長期平均報酬ターンベースの確率的ゲームの解決に帰着できることを示します。
この減少により、これまでポリトピック RMDP に当てはまることが知られていなかったいくつかの重要な結果を導き出すことができます。
まず、長期平均報酬ポリトピック RMDP を解くための新しい計算量限界を導出し、RMDP の閾値決定問題が $NP \cap coNP$ にあり、二次指数関数が期待されるランダム化アルゴリズムを許容することを初めて示します。
ランタイム。
次に、長期平均報酬ポリトピック RMDP を解決するための新しいポリシー反復アルゴリズムであるロバスト ポリトピック ポリシー反復 (RPPI) を紹介します。
私たちの実験的評価では、値の反復に基づく最先端の手法と比較して、RPPI が長期平均報酬ポリトピック RMDP を解くのにはるかに効率的であることが示されています。

要約(オリジナル)

Markov decision processes (MDPs) provide a standard framework for sequential decision making under uncertainty. However, MDPs do not take uncertainty in transition probabilities into account. Robust Markov decision processes (RMDPs) address this shortcoming of MDPs by assigning to each transition an uncertainty set rather than a single probability value. In this work, we consider polytopic RMDPs in which all uncertainty sets are polytopes and study the problem of solving long-run average reward polytopic RMDPs. We present a novel perspective on this problem and show that it can be reduced to solving long-run average reward turn-based stochastic games with finite state and action spaces. This reduction allows us to derive several important consequences that were hitherto not known to hold for polytopic RMDPs. First, we derive new computational complexity bounds for solving long-run average reward polytopic RMDPs, showing for the first time that the threshold decision problem for them is in $NP \cap coNP$ and that they admit a randomized algorithm with sub-exponential expected runtime. Second, we present Robust Polytopic Policy Iteration (RPPI), a novel policy iteration algorithm for solving long-run average reward polytopic RMDPs. Our experimental evaluation shows that RPPI is much more efficient in solving long-run average reward polytopic RMDPs compared to state-of-the-art methods based on value iteration.

arxiv情報

著者 Krishnendu Chatterjee,Ehsan Kafshdar Goharshady,Mehrdad Karrabi,Petr Novotný,Đorđe Žikelić
発行日 2024-04-30 17:05:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク