要約
堅牢な POMDP は、モデルの不確実性を処理するために古典的な POMDP を拡張します。
具体的には、ロバストな POMDP は、遷移モデルおよび観測モデル上でいわゆる不確実性セットを示し、確率の範囲を効果的に定義します。
堅牢な POMDP のポリシーは、(1) 部分的な可観測性を考慮してメモリベースであり、(2) 不確実性セットからの最悪の場合のインスタンスを考慮してモデルの不確実性に対して堅牢である必要があります。
このような堅牢なメモリベースのポリシーを計算するために、我々は悲観的反復計画 (PIP) フレームワークを提案します。このフレームワークは、次の 2 つの主要なステップを交互に行います。(1) 不確実性セットから最悪の場合の確率インスタンスを介して悲観的 (非ロバストな) POMDP を選択します。
(2) この悲観的な POMDP の有限状態コントローラー (FSC) を計算します。
元のロバストな POMDP でこの FSC のパフォーマンスを評価し、ステップ (1) でこの評価を使用して次の悲観的な POMDP を選択します。
PIP 内で、rFSCNet アルゴリズムを提案します。
各反復で、rFSCNet は、悲観的な POMDP 用に最適化された監視ポリシーを使用して、リカレント ニューラル ネットワークを通じて FSC を見つけます。
4 つのベンチマーク環境での実証的評価では、最先端の堅牢な POMDP ソルバーと比較して、いくつかのベースライン手法に対する堅牢性と競合パフォーマンスが向上していることが示されています。
要約(オリジナル)
Robust POMDPs extend classical POMDPs to handle model uncertainty. Specifically, robust POMDPs exhibit so-called uncertainty sets on the transition and observation models, effectively defining ranges of probabilities. Policies for robust POMDPs must be (1) memory-based to account for partial observability and (2) robust against model uncertainty to account for the worst-case instances from the uncertainty sets. To compute such robust memory-based policies, we propose the pessimistic iterative planning (PIP) framework, which alternates between two main steps: (1) selecting a pessimistic (non-robust) POMDP via worst-case probability instances from the uncertainty sets; and (2) computing a finite-state controller (FSC) for this pessimistic POMDP. We evaluate the performance of this FSC on the original robust POMDP and use this evaluation in step (1) to select the next pessimistic POMDP. Within PIP, we propose the rFSCNet algorithm. In each iteration, rFSCNet finds an FSC through a recurrent neural network by using supervision policies optimized for the pessimistic POMDP. The empirical evaluation in four benchmark environments showcases improved robustness against several baseline methods and competitive performance compared to a state-of-the-art robust POMDP solver.
arxiv情報
著者 | Maris F. L. Galesloot,Marnix Suilen,Thiago D. Simão,Steven Carr,Matthijs T. J. Spaan,Ufuk Topcu,Nils Jansen |
発行日 | 2024-11-12 13:50:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google