要約
決定論的な部分的に観察可能なマルコフ決定プロセス(detPOMDP)は、エージェントがその環境状態について不確実であるが、決定論的に行動し、観察することができる問題の問題でしばしば発生します。
このホワイトペーパーでは、DetPOMDPSのMonte Carlo Value Iteration(MCVI)アルゴリズムの適応であるDetMCVIを提案します。これは、有限状態コントローラー(FSC)の形でポリシーを構築します。
DetMCVIは、成功率が高いため、大きな問題を解決し、detPOMDPの既存のベースラインを上回ります。
また、実際のモバイルロボットフォレストマッピングシナリオでアルゴリズムのパフォーマンスを検証します。
要約(オリジナル)
Deterministic partially observable Markov decision processes (DetPOMDPs) often arise in planning problems where the agent is uncertain about its environmental state but can act and observe deterministically. In this paper, we propose DetMCVI, an adaptation of the Monte Carlo Value Iteration (MCVI) algorithm for DetPOMDPs, which builds policies in the form of finite-state controllers (FSCs). DetMCVI solves large problems with a high success rate, outperforming existing baselines for DetPOMDPs. We also verify the performance of the algorithm in a real-world mobile robot forest mapping scenario.
arxiv情報
著者 | Alex Schutz,Yang You,Matias Mattamala,Ipek Caliskanelli,Bruno Lacerda,Nick Hawes |
発行日 | 2025-05-01 15:30:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google