Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning

要約

制約付き強化学習 (CRL) は、エージェントが期待コストとして定式化されることが多いドメイン固有の制約を満たしながら、期待収益を最大化することで目標を達成する必要がある、逐次的な意思決定の問題に取り組みます。
この状況では、継続制御の問題に対処する際にポリシーベースの方法がいくつかの利点があるため、ポリシーベースの方法が広く使用されています。
これらのメソッドは、確率的ポリシーのパラメータを直接学習するか、確率的ハイパーポリシーのパラメータを直接学習するかに応じて、アクションベースまたはパラメータベースの探索戦略を使用してポリシー空間内を検索します。
この論文では、二重変数正則化を使用した代替アセント/ディセント スキームに依存する、勾配ベースの主双対アルゴリズムを介して CRL 問題に対処するための一般的なフレームワークを提案します。
C-PG と呼ばれる探索に依存しないアルゴリズムを導入します。このアルゴリズムは、(弱い) 勾配支配の仮定の下でグローバルな最終反復収束保証を示し、既存の結果を改善および一般化します。
次に、C-PG のアクションベースとパラメータベースのバージョンである C-PGAE と C-PGPE をそれぞれ設計し、それらがコストに対するリスク対策の観点から定義された制約にどのように自然に拡張されるかを示します。
多くの場合、安全性が重要なシナリオで要求されます。
最後に、制約付き制御問題に関するアルゴリズムを数値的に検証し、最先端のベースラインと比較して、その有効性を実証します。

要約(オリジナル)

Constrained Reinforcement Learning (CRL) tackles sequential decision-making problems where agents are required to achieve goals by maximizing the expected return while meeting domain-specific constraints, which are often formulated as expected costs. In this setting, policy-based methods are widely used since they come with several advantages when dealing with continuous-control problems. These methods search in the policy space with an action-based or parameter-based exploration strategy, depending on whether they learn directly the parameters of a stochastic policy or those of a stochastic hyperpolicy. In this paper, we propose a general framework for addressing CRL problems via gradient-based primal-dual algorithms, relying on an alternate ascent/descent scheme with dual-variable regularization. We introduce an exploration-agnostic algorithm, called C-PG, which exhibits global last-iterate convergence guarantees under (weak) gradient domination assumptions, improving and generalizing existing results. Then, we design C-PGAE and C-PGPE, the action-based and the parameter-based versions of C-PG, respectively, and we illustrate how they naturally extend to constraints defined in terms of risk measures over the costs, as it is often requested in safety-critical scenarios. Finally, we numerically validate our algorithms on constrained control problems, and compare them with state-of-the-art baselines, demonstrating their effectiveness.

arxiv情報

著者 Alessandro Montenegro,Marco Mussi,Matteo Papini,Alberto Maria Metelli
発行日 2024-07-15 14:54:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク