The Wasserstein Believer: Learning Belief Updates for Partially Observable Environments through Reliable Latent Space Models

要約

部分的に観察可能なマルコフ決定プロセス (POMDP) は、エージェントが完全な状態を認識できない環境をモデル化するために使用されます。
そのため、エージェントは過去の観察と行動を考慮して推論する必要があります。
ただし、歴史空間の急激な増加により、単に完全な歴史を思い出すことは一般に困難です。
真の状態が何であるかについての信念をモデル化する確率分布を維持することは、履歴の十分な統計として使用できますが、その計算には環境のモデルへのアクセスが必要であり、多くの場合困難です。
SOTA アルゴリズムはリカレント ニューラル ネットワークを使用して、十分な統計を学習することを目的として観察とアクションの履歴を圧縮しますが、成功の保証がなく、次善のポリシーにつながる可能性があります。
これを克服するために、POMDP の潜在モデルと信念更新の近似を学習する RL アルゴリズムである Wasserstein Belief Updater を提案します。
私たちのアプローチには、近似の品質に関する理論的保証が付属しており、出力された信念によって最適な値関数を学習できることが保証されます。

要約(オリジナル)

Partially Observable Markov Decision Processes (POMDPs) are used to model environments where the full state cannot be perceived by an agent. As such the agent needs to reason taking into account the past observations and actions. However, simply remembering the full history is generally intractable due to the exponential growth in the history space. Maintaining a probability distribution that models the belief over what the true state is can be used as a sufficient statistic of the history, but its computation requires access to the model of the environment and is often intractable. While SOTA algorithms use Recurrent Neural Networks to compress the observation-action history aiming to learn a sufficient statistic, they lack guarantees of success and can lead to sub-optimal policies. To overcome this, we propose the Wasserstein Belief Updater, an RL algorithm that learns a latent model of the POMDP and an approximation of the belief update. Our approach comes with theoretical guarantees on the quality of our approximation ensuring that our outputted beliefs allow for learning the optimal value function.

arxiv情報

著者 Raphael Avalos,Florent Delgrange,Ann Nowé,Guillermo A. Pérez,Diederik M. Roijers
発行日 2023-10-26 15:25:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク