要約
POMDP での学習は、MDP よりもはるかに難しいことが知られています。
この論文では、未知の遷移モデルと観察モデルを持つエピソード的な POMDP のオンライン学習問題を検討します。
我々は、POMDP 用の事後サンプリング ベースの強化学習アルゴリズム (PS4POMDP) を提案します。これは、POMDP 用の最先端の楽観主義ベースのオンライン学習アルゴリズムと比較して、はるかにシンプルで実装可能です。
提案されたアルゴリズムのベイジアンリグレスはエピソード数の平方根としてスケールされ、他のパラメーターでは多項式であることを示します。
一般的な設定では、リグレスは水平線の長さ $H$ に応じて指数関数的に増加し、下限を設けることでこれが避けられないことを示します。
ただし、POMDP が不完全で、明らかにする力が弱い場合 (最近の文献でよく見られる仮定)、多項式ベイジアン リグレス束縛を確立します。
最後に、マルチエージェント POMDP 用の事後サンプリング アルゴリズムを提案し、これにもサブリニアリチャードがあることを示します。
要約(オリジナル)
Learning in POMDPs is known to be significantly harder than in MDPs. In this paper, we consider the online learning problem for episodic POMDPs with unknown transition and observation models. We propose a Posterior Sampling-based reinforcement learning algorithm for POMDPs (PS4POMDPs), which is much simpler and more implementable compared to state-of-the-art optimism-based online learning algorithms for POMDPs. We show that the Bayesian regret of the proposed algorithm scales as the square root of the number of episodes and is polynomial in the other parameters. In a general setting, the regret scales exponentially in the horizon length $H$, and we show that this is inevitable by providing a lower bound. However, when the POMDP is undercomplete and weakly revealing (a common assumption in the recent literature), we establish a polynomial Bayesian regret bound. We finally propose a posterior sampling algorithm for multi-agent POMDPs, and show it too has sublinear regret.
arxiv情報
著者 | Dengwang Tang,Dongze Ye,Rahul Jain,Ashutosh Nayyar,Pierluigi Nuzzo |
発行日 | 2024-10-23 14:47:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google