Solving Long-run Average Reward Robust MDPs via Stochastic Games

要約

マルコフ意思決定プロセス (MDP) は、不確実性の下での逐次的な意思決定のための標準フレームワークを提供します。
ただし、MDP の遷移確率はデータから推定されることが多く、MDP はデータの不確実性を考慮していません。
堅牢なマルコフ決定プロセス (RMDP) は、各遷移に単一の確率値ではなく不確実性セットを割り当てることで、MDP のこの欠点に対処します。
RMDP を解決する目的は、不確実性セットに対して最悪の場合のパフォーマンスを最大化するポリシーを見つけることです。
この研究では、すべての不確実性セットがポリトープであるポリトピック RMDP を考慮し、長期平均報酬ポリトピック RMDP を解く問題を研究します。
私たちは計算の複雑さの側面と効率的なアルゴリズムに焦点を当てています。
我々はこの問題について新しい視点を提示し、この問題が有限の状態空間とアクション空間を使用した長期平均報酬ターンベースの確率的ゲームの解決に帰着できることを示します。
この減少により、これまでポリトピック RMDP に当てはまることが知られていなかったいくつかの重要な結果を導き出すことができます。
まず、長期平均報酬ポリトピック RMDP を解くための新しい計算量限界を導出し、RMDP の閾値決定問題が NP coNP にあり、指数関数以下の予想実行時間を持つランダム化アルゴリズムを許容することを初めて示しました。
次に、長期平均報酬ポリトピック RMDP を解決するための新しいポリシー反復アルゴリズムであるロバスト ポリトピック ポリシー反復 (RPPI) を紹介します。
私たちの実験的評価では、値の反復に基づく最先端の手法と比較して、RPPI が長期平均報酬ポリトピック RMDP を解くのにはるかに効率的であることが示されています。

要約(オリジナル)

Markov decision processes (MDPs) provide a standard framework for sequential decision making under uncertainty. However, transition probabilities in MDPs are often estimated from data and MDPs do not take data uncertainty into account. Robust Markov decision processes (RMDPs) address this shortcoming of MDPs by assigning to each transition an uncertainty set rather than a single probability value. The goal of solving RMDPs is then to find a policy which maximizes the worst-case performance over the uncertainty sets. In this work, we consider polytopic RMDPs in which all uncertainty sets are polytopes and study the problem of solving long-run average reward polytopic RMDPs. Our focus is on computational complexity aspects and efficient algorithms. We present a novel perspective on this problem and show that it can be reduced to solving long-run average reward turn-based stochastic games with finite state and action spaces. This reduction allows us to derive several important consequences that were hitherto not known to hold for polytopic RMDPs. First, we derive new computational complexity bounds for solving long-run average reward polytopic RMDPs, showing for the first time that the threshold decision problem for them is in NP coNP and that they admit a randomized algorithm with sub-exponential expected runtime. Second, we present Robust Polytopic Policy Iteration (RPPI), a novel policy iteration algorithm for solving long-run average reward polytopic RMDPs. Our experimental evaluation shows that RPPI is much more efficient in solving long-run average reward polytopic RMDPs compared to state-of-the-art methods based on value iteration.

arxiv情報

著者 Krishnendu Chatterjee,Ehsan Kafshdar Goharshady,Mehrdad Karrabi,Petr Novotný,Đorđe Žikelić
発行日 2023-12-21 15:00:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク