要約
無限地平線割引なし設定における制約付きマルコフ決定プロセス (CMDP) での学習のための事後サンプリングに基づく新しいアルゴリズムを提案します。
このアルゴリズムは、既存のアルゴリズムと比較して経験的に有利であると同時に、最適に近いリグレス限界を達成します。
私たちの主な理論的結果は、S 状態、A アクション、およびヒット時間 H の制限を持つ通信 CMDP の \tilde{O} (HS \sqrt{AT}) の各コスト コンポーネントに対するベイジアン リグレス限界です。このリグレス限界は一致します。
時間軸 T の順序での下限であり、無限軸の割引なし設定で CMDP を通信するための最もよく知られたリグレス限界です。
経験的な結果は、その単純さにもかかわらず、事後サンプリング アルゴリズムが制約付き強化学習の既存のアルゴリズムよりも優れていることを示しています。
要約(オリジナル)
We present a new algorithm based on posterior sampling for learning in constrained Markov decision processes (CMDP) in the infinite-horizon undiscounted setting. The algorithm achieves near-optimal regret bounds while being advantageous empirically compared to the existing algorithms. Our main theoretical result is a Bayesian regret bound for each cost component of \tilde{O} (HS \sqrt{AT}) for any communicating CMDP with S states, A actions, and bound on the hitting time H. This regret bound matches the lower bound in order of time horizon T and is the best-known regret bound for communicating CMDPs in the infinite-horizon undiscounted setting. Empirical results show that, despite its simplicity, our posterior sampling algorithm outperforms the existing algorithms for constrained reinforcement learning.
arxiv情報
著者 | Danil Provodin,Pratik Gajane,Mykola Pechenizkiy,Maurits Kaptein |
発行日 | 2023-09-27 15:48:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google