要約
堅牢なマルコフ決定プロセス(RMDP)は、一連の遷移関数のセットを定義することにより、遷移確率の不確実性を考慮する古典的なMDPを一般化します。
目的は、RMDPの一連の実行(または無限の軌跡)であり、目的の価値は、エージェントが敵対的環境に対して保証できる最大確率です。
(a)到達可能性の目標を考慮します。到達可能性の目的では、目標は状態のターゲットセットを与えられているため、最終的にはそのうちの1つに到達することです。
(b)$ \ omega $の正規目標の標準表現であるパリティ目標。
定性分析の問題は、確率1で目的を確保できるかどうかを尋ねます。この作業では、RMDPの構造、例えばユニチーンやアリオヨウ素酸塩の構造について仮定することなく、RMDPの到達可能性とパリティ目標の定性的問題を研究します。
私たちの貢献は2つあります。
最初に、到達可能性とパリティ目標の定性的な問題を解決する不確実性セットへのOracleアクセスを伴う効率的なアルゴリズムを提示します。
次に、数千の州までの文献からの古典的なRMDP例に対するOracleベースのアプローチの有効性を実証する実験結果を報告します。
要約(オリジナル)
Robust Markov Decision Processes (RMDPs) generalize classical MDPs that consider uncertainties in transition probabilities by defining a set of possible transition functions. An objective is a set of runs (or infinite trajectories) of the RMDP, and the value for an objective is the maximal probability that the agent can guarantee against the adversarial environment. We consider (a) reachability objectives, where given a target set of states, the goal is to eventually arrive at one of them; and (b) parity objectives, which are a canonical representation for $\omega$-regular objectives. The qualitative analysis problem asks whether the objective can be ensured with probability 1. In this work, we study the qualitative problem for reachability and parity objectives on RMDPs without making any assumption over the structures of the RMDPs, e.g., unichain or aperiodic. Our contributions are twofold. We first present efficient algorithms with oracle access to uncertainty sets that solve qualitative problems of reachability and parity objectives. We then report experimental results demonstrating the effectiveness of our oracle-based approach on classical RMDP examples from the literature scaling up to thousands of states.
arxiv情報
著者 | Ali Asadi,Krishnendu Chatterjee,Ehsan Kafshdar Goharshady,Mehrdad Karrabi,Ali Shafiee |
発行日 | 2025-05-07 16:15:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google