Imprecise Probabilities Meet Partial Observability: Game Semantics for Robust POMDPs

要約

部分観察可能なマルコフ決定プロセス (POMDP) は、確率分布が正確にわかっているという重要な前提に依存しています。
堅牢な POMDP (RPOMDP) は、不確実性セットと呼ばれる不正確な確率を定義することで、この懸念を軽減します。
堅牢な MDP は広範囲に研究されていますが、RPOMDP に関する研究は限られており、主にアルゴリズムによる解決方法に焦点を当てています。
我々は、1) 不確実性セットの異なる仮定が最適なポリシーと値に影響を与えることを示すことにより、RPOMDP の理論的理解を深めます。
2) RPOMDP には、部分的に観察可能な確率的ゲーム (POSG) セマンティクスがあります。
3) 異なる仮定を持つ同じ RPOMDP は、意味的に異なる POSG をもたらし、したがって異なるポリシーと値をもたらします。
RPOMDPS のこれらの新しいセマンティクスにより、広く研究されている POSG モデルの結果にアクセスできるようになります。
具体的には、ナッシュ均衡の存在を示します。
最後に、セマンティクスを使用して既存の RPOMDP 文献を分類し、これらの既存の研究がどのような不確実性の仮定の下で動作するかを明らかにします。

要約(オリジナル)

Partially observable Markov decision processes (POMDPs) rely on the key assumption that probability distributions are precisely known. Robust POMDPs (RPOMDPs) alleviate this concern by defining imprecise probabilities, referred to as uncertainty sets. While robust MDPs have been studied extensively, work on RPOMDPs is limited and primarily focuses on algorithmic solution methods. We expand the theoretical understanding of RPOMDPs by showing that 1) different assumptions on the uncertainty sets affect optimal policies and values; 2) RPOMDPs have a partially observable stochastic game (POSG) semantic; and 3) the same RPOMDP with different assumptions leads to semantically different POSGs and, thus, different policies and values. These novel semantics for RPOMDPS give access to results for the widely studied POSG model; concretely, we show the existence of a Nash equilibrium. Finally, we classify the existing RPOMDP literature using our semantics, clarifying under which uncertainty assumptions these existing works operate.

arxiv情報

著者 Eline M. Bovy,Marnix Suilen,Sebastian Junges,Nils Jansen
発行日 2024-05-08 10:22:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT パーマリンク