What should be observed for optimal reward in POMDPs?

要約

部分観察可能なマルコフ決定プロセス (POMDP) は、不確実な環境で意思決定を行うエージェントのための標準モデルです。
POMDP に関するほとんどの作業は、利用可能な機能に基づいて戦略を合成することに焦点を当てています。
ただし、システム設計者は多くの場合、エージェントの監視機能を制御できます。
センサーを配置または選択することによって。
このため、望ましい目標を達成するには、エージェントのセンサーを費用対効果の高い方法で選択する必要があるという問題が生じます。
この論文では、新しい最適可観測性問題 OOP を研究します。つまり、POMDP M が与えられた場合、(最小の) 期待される報酬が所定のしきい値を下回るように、固定予算内で M の観測能力をどのように変更する必要がありますか?
問題は一般的には決定不可能であるが、位置戦略のみを考慮した場合には決定可能であることを示します。
我々は、OOP の決定可能なフラグメントに対する 2 つのアルゴリズムを提示します。1 つは M の基礎となるマルコフ決定プロセスの最適戦略に基づくもので、もう 1 つは SMT によるパラメーター合成に基づくものです。
我々は、POMDP 文献からの典型的な例の変形について有望な結果を報告します。

要約(オリジナル)

Partially observable Markov Decision Processes (POMDPs) are a standard model for agents making decisions in uncertain environments. Most work on POMDPs focuses on synthesizing strategies based on the available capabilities. However, system designers can often control an agent’s observation capabilities, e.g. by placing or selecting sensors. This raises the question of how one should select an agent’s sensors cost-effectively such that it achieves the desired goals. In this paper, we study the novel optimal observability problem OOP: Given a POMDP M, how should one change M’s observation capabilities within a fixed budget such that its (minimal) expected reward remains below a given threshold? We show that the problem is undecidable in general and decidable when considering positional strategies only. We present two algorithms for a decidable fragment of the OOP: one based on optimal strategies of M’s underlying Markov decision process and one based on parameter synthesis with SMT. We report promising results for variants of typical examples from the POMDP literature.

arxiv情報

著者 Alyzia-Maria Konsta,Alberto Lluch Lafuente,Christoph Matheja
発行日 2024-05-17 13:27:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク