要約
部分観測可能マルコフ決定過程(POMDP)は、エージェントが完全な状態を認識できない環境をモデル化するのに有用なツールである。そのため、エージェントは過去の観測と行動を考慮して推論する必要があります。しかし、履歴空間が指数関数的に増大するため、単純に履歴をすべて記憶することは一般に困難である。履歴の十分統計量として、真の状態に対する信念をモデル化した確率分布を保持することができますが、その計算には環境モデルへのアクセスが必要であり、これもまた難解なものです。現在の最先端のアルゴリズムでは、RNN(Recurrent Neural Network)を用いて観測-行動履歴を圧縮し、十分統計量を学習することを目指しているが、成功の保証がなく、最適でない政策につながる可能性がある。そこで、POMDPの潜在モデルと信念更新の近似を学習するRLアルゴリズム、Wasserstein-Belief-Updater (WBU)を提案する。我々のアプローチは、出力された信念が最適な価値関数を学習できることを保証する、近似の品質に関する理論的保証を備えている。
要約(オリジナル)
Partially Observable Markov Decision Processes (POMDPs) are useful tools to model environments where the full state cannot be perceived by an agent. As such the agent needs to reason taking into account the past observations and actions. However, simply remembering the full history is generally intractable due to the exponential growth in the history space. Keeping a probability distribution that models the belief over what the true state is can be used as a sufficient statistic of the history, but its computation requires access to the model of the environment and is also intractable. Current state-of-the-art algorithms use Recurrent Neural Networks (RNNs) to compress the observation-action history aiming to learn a sufficient statistic, but they lack guarantees of success and can lead to suboptimal policies. To overcome this, we propose the Wasserstein-Belief-Updater (WBU), an RL algorithm that learns a latent model of the POMDP and an approximation of the belief update. Our approach comes with theoretical guarantees on the quality of our approximation ensuring that our outputted beliefs allow for learning the optimal value function.
arxiv情報
著者 | Raphael Avalos,Florent Delgrange,Ann Nowé,Guillermo A. Pérez,Diederik M. Roijers |
発行日 | 2023-03-06 16:59:14+00:00 |
arxivサイト | arxiv_id(pdf) |