要約
不確実性の下での意思決定は、不完全な情報のために多くの実用的な自律システムの重要な側面です。
部分的に観察可能なマルコフ決定プロセス(POMDP)は、そのような条件下で意思決定の問題を策定するための数学的に原則的なフレームワークを提供します。
ただし、POMDPの最適なソリューションを見つけることは一般に扱いにくいです。
近年、オンラインツリー検索ソルバーを使用して、小規模から中程度のサイズの問題から中程度の問題から拡大するという大きな進歩があります。
多くの場合、このような近似ソルバーは、最適なソリューションに対する確率的または漸近保証に限定されます。
この論文では、近似と最適な解との間の離散POMDPの決定論的関係を導き出します。
いつでも、既存のソリューションと最適なソリューションの間に関連する境界を導き出すことができることを示します。
私たちの派生物は、新しい一連のアルゴリズムの手段を提供し、既存のアルゴリズムに添付できることを示しています。これらのアルゴリズムは、特定の構造を備えており、わずかな計算オーバーヘッドで決定的な保証を提供します。
その見返りに、ソリューションの品質を証明するだけでなく、決定論的保証に基づいて決定を下すと、決定論的認証なしの元のアルゴリズムと比較して優れたパフォーマンスが発生する可能性があることを実証します。
要約(オリジナル)
Decision-making under uncertainty is a critical aspect of many practical autonomous systems due to incomplete information. Partially Observable Markov Decision Processes (POMDPs) offer a mathematically principled framework for formulating decision-making problems under such conditions. However, finding an optimal solution for a POMDP is generally intractable. In recent years, there has been a significant progress of scaling approximate solvers from small to moderately sized problems, using online tree search solvers. Often, such approximate solvers are limited to probabilistic or asymptotic guarantees towards the optimal solution. In this paper, we derive a deterministic relationship for discrete POMDPs between an approximated and the optimal solution. We show that at any time, we can derive bounds that relate between the existing solution and the optimal one. We show that our derivations provide an avenue for a new set of algorithms and can be attached to existing algorithms that have a certain structure to provide them with deterministic guarantees with marginal computational overhead. In return, not only do we certify the solution quality, but we demonstrate that making a decision based on the deterministic guarantee may result in superior performance compared to the original algorithm without the deterministic certification.
arxiv情報
著者 | Moran Barenboim,Vadim Indelman |
発行日 | 2025-03-27 11:30:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google