要約
部分的に観察可能なマルコフ決定プロセス (POMDP) は、逐次的な意思決定における不確実性の顕著なモデルを形成します。
私たちは、エージェントが確率 1 で指定された仕様を保証する戦略を持っているかどうかを決定するための理論的保証を備えたアルゴリズムを構築することに興味があります。このよく研究された問題は、推論の難しさのため、非常に単純なオメガ正規の目的ではすでに決定できないことが知られています。
不確実な出来事について。
エージェントが最終的には現在の状態の完全な情報をほぼ確実に取得することを要求することで、情報損失を制限する暴露メカニズムを導入します。
私たちの主な技術的成果は、弱明示と強顕示と呼ばれる 2 つのクラスの POMDP の正確なアルゴリズムを構築することです。
重要なのは、決定可能なケースは、有限の信念を支持するマルコフ決定プロセスの分析に帰着するということです。
これにより、大規模なクラスの POMDP に対して概念的に単純かつ正確なアルゴリズムが得られます。
要約(オリジナル)
Partially observable Markov decision processes (POMDPs) form a prominent model for uncertainty in sequential decision making. We are interested in constructing algorithms with theoretical guarantees to determine whether the agent has a strategy ensuring a given specification with probability 1. This well-studied problem is known to be undecidable already for very simple omega-regular objectives, because of the difficulty of reasoning on uncertain events. We introduce a revelation mechanism which restricts information loss by requiring that almost surely the agent has eventually full information of the current state. Our main technical results are to construct exact algorithms for two classes of POMDPs called weakly and strongly revealing. Importantly, the decidable cases reduce to the analysis of a finite belief-support Markov decision process. This yields a conceptually simple and exact algorithm for a large class of POMDPs.
arxiv情報
著者 | Marius Belly,Nathanaël Fijalkow,Hugo Gimbert,Florian Horn,Guillermo A. Pérez,Pierre Vandenhove |
発行日 | 2024-12-16 18:37:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google