要約
継続的な状態、アクション、および観測スペースで動作する自律システムは、不確実性の下で計画と推論を必要とします。
このようなPOMDPの既存のオンライン計画方法は、ほぼ排他的にサンプルベースですが、それをモンテカルロツリー検索(MCTS)に組み合わせるため、特にノンパラメトリック設定では困難であることが判明したため、高次元勾配の最適化の力が明らかになります。
このギャップは、3つの貢献で閉じます。
まず、MDPとPOMDPの両方に対して移行尤度の観点から、新しいアクション勾配の定理を導き出し、勾配情報をツリー検索中にアクセスできるようにします。
第二に、アクションブランチを変更するためにサンプルを再利用する複数の重要性サンプリング(MIS)ツリーを導入し、検索内の勾配ステップを可能にする一貫した値推定値をもたらします。
第三に、独立した関心の結果、物理ドメインで一般的なスムーズな生成モデルのために、エリア式を介して正確な遷移確率計算を導き出します。
これらの要素は、非パラメトリック粒子検索とPOMDPでのオンライン勾配洗練をブレンドする最初のプランナーであるアクショングレードのモンテカルロツリー検索(AGMCT)に結合します。
いくつかの挑戦的な連続MDPおよびPOMDPベンチマークにまたがるAGMCTは、ソリューション品質の広く使用されているサンプルのみのソルバーを上回ります。
要約(オリジナル)
Autonomous systems that operate in continuous state, action, and observation spaces require planning and reasoning under uncertainty. Existing online planning methods for such POMDPs are almost exclusively sample-based, yet they forego the power of high-dimensional gradient optimization as combining it into Monte Carlo Tree Search (MCTS) has proved difficult, especially in non-parametric settings. We close this gap with three contributions. First, we derive a novel action-gradient theorem for both MDPs and POMDPs in terms of transition likelihoods, making gradient information accessible during tree search. Second, we introduce the Multiple Importance Sampling (MIS) tree, that re-uses samples for changing action branches, yielding consistent value estimates that enable in-search gradient steps. Third, we derive exact transition probability computation via the area formula for smooth generative models common in physical domains, a result of independent interest. These elements combine into Action-Gradient Monte Carlo Tree Search (AGMCTS), the first planner to blend non-parametric particle search with online gradient refinement in POMDPs. Across several challenging continuous MDP and POMDP benchmarks, AGMCTS outperforms widely-used sample-only solvers in solution quality.
arxiv情報
著者 | Idan Lev-Yehudi,Michael Novitsky,Moran Barenboim,Ron Benchetrit,Vadim Indelman |
発行日 | 2025-05-31 11:36:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google