Dynamical-VAE-based Hindsight to Learn the Causal Dynamics of Factored-POMDPs

要約

部分的な観察から基礎的な環境動態の表現を学習することは、機械学習における重要な課題です。
部分的に観察可能なマルコフ決定プロセス (POMDP) のコンテキストでは、状態表現は多くの場合、過去の観察とアクションの履歴から推測されます。
因果関係のダイナミクスを正確に捉え、状態表現を強化するには、将来の情報を組み込むことが不可欠であることを示します。
これに対処するために、POMDP のオフライン軌道から因果的マルコフ力学を学習するように設計された動的変分自動エンコーダー (DVAE) を導入します。
私たちの手法では、ファクタリングされた POMDP 設定内で過去、現在、および複数ステップの将来の情報を統合する拡張後知恵フレームワークを採用しています。
経験的な結果は、このアプローチが、履歴ベースのモデルや典型的な後知恵ベースのモデルよりも効果的に隠れた状態遷移を支配する因果グラフを明らかにすることを明らかにしています。

要約(オリジナル)

Learning representations of underlying environmental dynamics from partial observations is a critical challenge in machine learning. In the context of Partially Observable Markov Decision Processes (POMDPs), state representations are often inferred from the history of past observations and actions. We demonstrate that incorporating future information is essential to accurately capture causal dynamics and enhance state representations. To address this, we introduce a Dynamical Variational Auto-Encoder (DVAE) designed to learn causal Markovian dynamics from offline trajectories in a POMDP. Our method employs an extended hindsight framework that integrates past, current, and multi-step future information within a factored-POMDP setting. Empirical results reveal that this approach uncovers the causal graph governing hidden state transitions more effectively than history-based and typical hindsight-based models.

arxiv情報

著者 Chao Han,Debabrota Basu,Michael Mangan,Eleni Vasilaki,Aditya Gilra
発行日 2024-11-12 14:27:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク