Solving Robust Markov Decision Processes: Generic, Reliable, Efficient

要約

マルコフ意思決定プロセス (MDP) は、確率が存在する場合の逐次的な意思決定のための十分に確立されたモデルです。
ロバスト MDP (RMDP) では、すべてのアクションが確率分布の不確実性セットに関連付けられており、遷移確率が正確には分からないことをモデル化しています。
確率的ゲームとの既知の理論的関係に基づいて、汎用的で信頼性が高く効率的な RMDP を解決するためのフレームワークを提供します。
これはモデルに関しても *汎用* であり、間隔、$L^1$- または $L^2$- ボール、多面体などを含むがこれらに限定されない幅広い不確実性セットを可能にします。
そして目標に関しては、長期的な平均報酬、割引されていない合計報酬、確率的最短経路が含まれます。
私たちのアプローチは限界内に収束するだけでなく、計算中のいつでも精度を保証するため、*信頼性* があります。
これは、最先端のアプローチとは対照的に、基礎となる確率ゲームを明示的に構築する必要がないため、*効率的*です。
その結果、私たちのプロトタイプの実装は既存のツールを数桁上回り、100 万の状態を持つ RMDP を 1 分以内に解決できます。

要約(オリジナル)

Markov decision processes (MDP) are a well-established model for sequential decision-making in the presence of probabilities. In robust MDP (RMDP), every action is associated with an uncertainty set of probability distributions, modelling that transition probabilities are not known precisely. Based on the known theoretical connection to stochastic games, we provide a framework for solving RMDPs that is generic, reliable, and efficient. It is *generic* both with respect to the model, allowing for a wide range of uncertainty sets, including but not limited to intervals, $L^1$- or $L^2$-balls, and polytopes; and with respect to the objective, including long-run average reward, undiscounted total reward, and stochastic shortest path. It is *reliable*, as our approach not only converges in the limit, but provides precision guarantees at any time during the computation. It is *efficient* because — in contrast to state-of-the-art approaches — it avoids explicitly constructing the underlying stochastic game. Consequently, our prototype implementation outperforms existing tools by several orders of magnitude and can solve RMDPs with a million states in under a minute.

arxiv情報

著者 Tobias Meggendorfer,Maximilian Weininger,Patrick Wienhöft
発行日 2024-12-13 14:55:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク