Deep Belief Markov Models for POMDP Inference

要約

この作業では、部分的に観察可能なマルコフ決定プロセス(POMDP)の問題で効率的なモデル形式の不可知論的推論を提供する深い信念マルコフモデル(DBMM)と呼ばれる新しいディープラーニングベースのアーキテクチャを紹介します。
POMDPフレームワークは、観察の不確実性の下での連続的な意思決定の問題をモデリングおよび解決することができます。
複雑で高次元の部分的に観察可能な環境では、正確な計算(たとえば、ベイズの定理を介して)またはサンプリングアルゴリズムに基づいて推論するための既存の方法は十分にスケーリングしません。
さらに、正確な遷移ダイナミクスを学習するために、グラウンドトゥルースの状態は利用できない場合があります。
DBMMSは、ディープマルコフモデルを部分的に観察可能な意思決定フレームワークに拡張し、変分推論方法を介した利用可能な観測データに完全に基づいて効率的な信念推論を可能にします。
ニューラルネットワークの効力を活用することにより、DBMMはシステムのダイナミクスにおける非線形関係を推測およびシミュレートし、自然に高次元性と離散または連続変数の問題に拡大することができます。
さらに、ニューラルネットワークパラメーターは、データの可用性に基づいて効率的に動的に更新できます。
したがって、DBMMは信念変数を推測するために使用できます。したがって、信念空間に対するPOMDPソリューションの導出を可能にします。
個別の変数と連続変数を含むベンチマーク問題におけるDBMMSのモデル形式の不可知論的推論の能力を評価することにより、提案された方法論の有効性を評価します。

要約(オリジナル)

This work introduces a novel deep learning-based architecture, termed the Deep Belief Markov Model (DBMM), which provides efficient, model-formulation agnostic inference in Partially Observable Markov Decision Process (POMDP) problems. The POMDP framework allows for modeling and solving sequential decision-making problems under observation uncertainty. In complex, high-dimensional, partially observable environments, existing methods for inference based on exact computations (e.g., via Bayes’ theorem) or sampling algorithms do not scale well. Furthermore, ground truth states may not be available for learning the exact transition dynamics. DBMMs extend deep Markov models into the partially observable decision-making framework and allow efficient belief inference entirely based on available observation data via variational inference methods. By leveraging the potency of neural networks, DBMMs can infer and simulate non-linear relationships in the system dynamics and naturally scale to problems with high dimensionality and discrete or continuous variables. In addition, neural network parameters can be dynamically updated efficiently based on data availability. DBMMs can thus be used to infer a belief variable, thus enabling the derivation of POMDP solutions over the belief space. We evaluate the efficacy of the proposed methodology by evaluating the capability of model-formulation agnostic inference of DBMMs in benchmark problems that include discrete and continuous variables.

arxiv情報

著者 Giacomo Arcieri,Konstantinos G. Papakonstantinou,Daniel Straub,Eleni Chatzi
発行日 2025-03-17 17:58:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク