要約
制約付きマルコフ決定プロセス (CMDP) は、強化学習で安全性制約をモデル化する一般的な方法です。
CMDP を効率的に解決するための最先端の方法は、主双対アルゴリズムに基づいています。
これらのアルゴリズムでは、現在知られているすべてのリグレス限界でエラーのキャンセルが可能です。つまり、あるラウンドでの制約違反を別のラウンドでの厳密な制約を満たすことで補償できます。
これにより、最終 (混合) ポリシーの安全性のみが保証され、学習中の安全性は保証されないため、オンライン学習プロセスは安全ではなくなります。
Efroni らのように、
(2020) が指摘したように、エラーキャンセルを許可しない場合に、主双対アルゴリズムがサブリニアリチャードを証明できるかどうかは未解決の問題です。
この論文では、最初の肯定的な答えを示します。
まず、複数の制約を持つ CMDP への正則化主双対スキームの最終反復収束に関する結果を一般化します。
この洞察に基づいて、未知の CMDP で学習するためのモデルベースの主双対アルゴリズムを提案します。
私たちのアルゴリズムがエラーキャンセルなしでサブリニアリチャードを達成することを証明します。
要約(オリジナル)
Constrained Markov decision processes (CMDPs) are a common way to model safety constraints in reinforcement learning. State-of-the-art methods for efficiently solving CMDPs are based on primal-dual algorithms. For these algorithms, all currently known regret bounds allow for error cancellations — one can compensate for a constraint violation in one round with a strict constraint satisfaction in another. This makes the online learning process unsafe since it only guarantees safety for the final (mixture) policy but not during learning. As Efroni et al. (2020) pointed out, it is an open question whether primal-dual algorithms can provably achieve sublinear regret if we do not allow error cancellations. In this paper, we give the first affirmative answer. We first generalize a result on last-iterate convergence of regularized primal-dual schemes to CMDPs with multiple constraints. Building upon this insight, we propose a model-based primal-dual algorithm to learn in an unknown CMDP. We prove that our algorithm achieves sublinear regret without error cancellations.
arxiv情報
著者 | Adrian Müller,Pragnya Alatur,Volkan Cevher,Giorgia Ramponi,Niao He |
発行日 | 2024-07-19 14:00:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google