要約
堅牢な部分観測可能なマルコフ決定プロセス (堅牢な POMDP) は、古典的な POMDP を拡張して、いわゆる不確実性セットを介して遷移および観測確率に関する追加の不確実性を処理します。
堅牢な POMDP のポリシーは、部分的な可観測性を考慮してメモリベースであるだけでなく、不確実性セットからの最悪のケースを考慮してモデルの不確実性に対しても堅牢である必要があります。
我々は、堅牢な POMDP のための堅牢なメモリベースのポリシーを見つける悲観的反復計画 (PIP) フレームワークを提案します。
PIP は 2 つの主なステップを交互に実行します。(1) 不確実性セットからの最悪の確率インスタンスを介して敵対的な (非ロバストな) POMDP を選択します。
(2) この敵対的な POMDP の有限状態コントローラー (FSC) を計算します。
元の堅牢な POMDP でこの FSC のパフォーマンスを評価し、ステップ (1) でこの評価を使用して次の敵対的な POMDP を選択します。
PIP 内で、rFSCNet アルゴリズムを提案します。
各反復で、rFSCNet は、敵対的な POMDP 用に最適化された監視ポリシーを使用して、リカレント ニューラル ネットワークを通じて FSC を見つけます。
4 つのベンチマーク環境での実証的評価では、最先端の堅牢な POMDP ソルバーと比較して、いくつかのベースライン手法に対する堅牢性と競合パフォーマンスが向上していることが示されています。
要約(オリジナル)
Robust partially observable Markov decision processes (robust POMDPs) extend classical POMDPs to handle additional uncertainty on the transition and observation probabilities via so-called uncertainty sets. Policies for robust POMDPs must not only be memory-based to account for partial observability but also robust against model uncertainty to account for the worst-case instances from the uncertainty sets. We propose the pessimistic iterative planning (PIP) framework, which finds robust memory-based policies for robust POMDPs. PIP alternates between two main steps: (1) selecting an adversarial (non-robust) POMDP via worst-case probability instances from the uncertainty sets; and (2) computing a finite-state controller (FSC) for this adversarial POMDP. We evaluate the performance of this FSC on the original robust POMDP and use this evaluation in step (1) to select the next adversarial POMDP. Within PIP, we propose the rFSCNet algorithm. In each iteration, rFSCNet finds an FSC through a recurrent neural network by using supervision policies optimized for the adversarial POMDP. The empirical evaluation in four benchmark environments showcases improved robustness against several baseline methods and competitive performance compared to a state-of-the-art robust POMDP solver.
arxiv情報
著者 | Maris F. L. Galesloot,Marnix Suilen,Thiago D. Simão,Steven Carr,Matthijs T. J. Spaan,Ufuk Topcu,Nils Jansen |
発行日 | 2024-09-30 15:30:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google