要約
リスク認識はオンライン オペレーティング エージェントの基本ですが、挑戦的な継続的なドメインや部分的な可観測性の下ではあまり注目されていません。
この論文では、リスク回避的な信念依存の確率的に制約された連続 POMDP の新しい定式化と解決策を提示します。
信念に依存する報酬と制約演算子の厳しい設定に取り組みます。
確率的信頼度パラメーターにより、私たちの定式化は真にリスクを回避し、最先端のチャンス制約よりもはるかに柔軟になります。
私たちの厳密な分析は、確率論的信頼度が最も厳しいケースでは、定式化が偶然の制約に非常に近いことを示しています。
ただし、確率論的定式化により、制約を満たすまたは違反するアクションの適応受け入れまたは剪定がはるかに高速かつ正確になります。
さらに、任意の信頼パラメーターを使用すると、アプローチに類似するものは見つかりませんでした。
連続ドメインでの定式化のソリューションのアルゴリズムを提示します。
また、重要度サンプリングを使用して、連続環境へのチャンス制約アプローチを強化します。
さらに、提示されたすべてのアルゴリズムは、粒子によって表されるパラメトリックおよびノンパラメトリックの信念で使用できます。
最後になりましたが、私たちは貢献し、厳密に分析し、偶然に制約された連続 POMDP の近似をシミュレートします。
シミュレーションは、アルゴリズムがベースラインと比較して前例のない速度を示し、衝突に関して同じパフォーマンスを発揮することを示しています。
要約(オリジナル)
Although risk awareness is fundamental to an online operating agent, it has received less attention in the challenging continuous domain and under partial observability. This paper presents a novel formulation and solution for risk-averse belief-dependent probabilistically constrained continuous POMDP. We tackle a demanding setting of belief-dependent reward and constraint operators. The probabilistic confidence parameter makes our formulation genuinely risk-averse and much more flexible than the state-of-the-art chance constraint. Our rigorous analysis shows that in the stiffest probabilistic confidence case, our formulation is very close to chance constraint. However, our probabilistic formulation allows much faster and more accurate adaptive acceptance or pruning of actions fulfilling or violating the constraint. In addition, with an arbitrary confidence parameter, we did not find any analogs to our approach. We present algorithms for the solution of our formulation in continuous domains. We also uplift the chance-constrained approach to continuous environments using importance sampling. Moreover, all our presented algorithms can be used with parametric and nonparametric beliefs represented by particles. Last but not least, we contribute, rigorously analyze and simulate an approximation of chance-constrained continuous POMDP. The simulations demonstrate that our algorithms exhibit unprecedented celerity compared to the baseline, with the same performance in terms of collisions.
arxiv情報
著者 | Andrey Zhitnikov,Vadim Indelman |
発行日 | 2023-02-21 15:48:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google