要約
この研究では、基盤となる遷移カーネルの有限個のプロトタイプの情報を持っているオンラインの堅牢なマルコフ決定プロセス (MDP) を検討します。
我々は、プロトタイプの適応的に更新された曖昧性セットを考慮し、対応する堅牢なポリシーのパフォーマンスを保証しながら、真の基礎となる遷移カーネルを効率的に識別するアルゴリズムを提案します。
より具体的には、その後の最適で堅牢な政策に対するサブリニアな後悔を提供します。
また、早期停止メカニズムと値関数の最悪の場合のパフォーマンス限界も提供します。
数値実験では、特にデータが限られた初期段階において、私たちの方法が既存のアプローチよりも優れていることを実証します。
この研究は、根底にある遷移確率とオンライン学習に関する考えられる事前情報を考慮することで堅牢な MDP に貢献し、不確実性の下で意思決定を改善するための理論的洞察と実用的なアルゴリズムの両方を提供します。
要約(オリジナル)
In this work, we consider an online robust Markov Decision Process (MDP) where we have the information of finitely many prototypes of the underlying transition kernel. We consider an adaptively updated ambiguity set of the prototypes and propose an algorithm that efficiently identifies the true underlying transition kernel while guaranteeing the performance of the corresponding robust policy. To be more specific, we provide a sublinear regret of the subsequent optimal robust policy. We also provide an early stopping mechanism and a worst-case performance bound of the value function. In numerical experiments, we demonstrate that our method outperforms existing approaches, particularly in the early stage with limited data. This work contributes to robust MDPs by considering possible prior information about the underlying transition probability and online learning, offering both theoretical insights and practical algorithms for improved decision-making under uncertainty.
arxiv情報
著者 | Shuo Sun,Meng Qi,Zuo-jun Max Shen |
発行日 | 2024-12-18 17:19:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google