要約
制約付きマルコフ決定プロセス (CMDP) は、安全な強化学習問題をモデル化する一般的な方法の 1 つであり、制約関数が安全目標をモデル化します。
ラグランジュベースの双対アルゴリズムまたは主双対アルゴリズムは、CMDP での学習のための効率的な方法を提供します。
これらのアルゴリズムでは、現在知られている有限ホライズン設定のリグレス限界により、「エラーのキャンセル」が可能になります。
あるエピソードの制約違反を、別のエピソードの厳密な制約を満たすことで補うことができます。
ただし、実際のアプリケーションではそのような動作が安全であるとは考えていません。
この論文では、表形式の有限ホライズン CMDP 用の新しいモデルベースのデュアル アルゴリズム OptAug-CMDP を提案することで、この弱点を克服します。
私たちのアルゴリズムは拡張ラグランジュ法によって動機づけられており、効率的に実行できます。
CMDP を探索する $K$ エピソード中に、アルゴリズムが目的と制約違反の両方について $\tilde{O}(\sqrt{K})$ のリグメントを取得することを示します。
既存のラグランジアン アプローチとは異なり、私たちのアルゴリズムはエラーをキャンセルする必要なしにこの後悔を達成します。
要約(オリジナル)
Constrained Markov Decision Processes (CMDPs) are one of the common ways to model safe reinforcement learning problems, where constraint functions model the safety objectives. Lagrangian-based dual or primal-dual algorithms provide efficient methods for learning in CMDPs. For these algorithms, the currently known regret bounds in the finite-horizon setting allow for a ‘cancellation of errors’; one can compensate for a constraint violation in one episode with a strict constraint satisfaction in another. However, we do not consider such a behavior safe in practical applications. In this paper, we overcome this weakness by proposing a novel model-based dual algorithm OptAug-CMDP for tabular finite-horizon CMDPs. Our algorithm is motivated by the augmented Lagrangian method and can be performed efficiently. We show that during $K$ episodes of exploring the CMDP, our algorithm obtains a regret of $\tilde{O}(\sqrt{K})$ for both the objective and the constraint violation. Unlike existing Lagrangian approaches, our algorithm achieves this regret without the need for the cancellation of errors.
arxiv情報
著者 | Adrian Müller,Pragnya Alatur,Giorgia Ramponi,Niao He |
発行日 | 2023-08-30 15:58:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google