要約
部分観測マルコフ決定過程 (POMDP) フレームワークは、不確実性の下で意思決定を行うための一般的なアプローチです。
最近、複数の研究で、関連するドメイン知識を POMDP の信念推定に統合することで、学習したポリシーのパフォーマンスを改善できることが示されました。
この研究では、ジェフリーの規則と正規化を使用して、ドメイン知識をPOMDPフレームワークの確率論的信念更新に統合するための新しい方法を提案します。
ドメイン知識を利用して、データ要件を削減し、RL を使用した POMDP ポリシー学習のパフォーマンスを向上できることを示します。
要約(オリジナル)
The partially observable Markov decision process (POMDP) framework is a common approach for decision making under uncertainty. Recently, multiple studies have shown that by integrating relevant domain knowledge into POMDP belief estimation, we can improve the learned policy’s performance. In this study, we propose a novel method for integrating the domain knowledge into probabilistic belief update in POMDP framework using Jeffrey’s rule and normalization. We show that the domain knowledge can be utilized to reduce the data requirement and improve performance for POMDP policy learning with RL.
arxiv情報
著者 | Tung Nguyen,Johane Takeuchi |
発行日 | 2023-02-17 08:16:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google