要約
無限地平割引制約付きマルコフ決定プロセス (制約付き MDP) の最適なポリシーを計算する問題を研究します。
実際に使用されるラグランジュベースのポリシー検索手法は人気があるにもかかわらず、これらの手法におけるポリシー反復の振動は完全には理解されておらず、制約違反やハイパーパラメータに対する感度などの問題が生じています。
このギャップを埋めるために、ラグランジュ法を使用して、制約付き MDP を制約付き鞍点問題にキャストします。この問題では、最大/最小プレーヤーがそれぞれ主変数/双対変数に対応し、2 つの単一時間スケールのポリシーベースの主変数を開発します。
ポリシーの非漸近収束を伴うデュアル アルゴリズムは、最適な制約付きポリシーを反復します。
具体的には、まず、エントロピー正則化ポリシー勾配を使用してポリシーを更新する正則化ポリシー勾配主双対 (RPG-PD) 手法と、二次正則化勾配上昇による双対を同時に提案します。
我々は、RPG-PD のポリシーの主双対反復がサブリニアなレートで正規化された鞍点に収束する一方、ポリシーの反復が最適な制約付きポリシーにサブリニアに収束することを証明します。
さらに、ポリシーのパラメータ化に関数近似を含めることによって、大規模な状態空間またはアクション空間で RPG-PD をインスタンス化し、同様の線形でない最終反復ポリシーの収束を確立します。
次に、楽観的勾配法を使用して主/双対変数を同時に更新するオプティミスティック ポリシー勾配主双対 (OPG-PD) 法を提案します。
OPG-PD のポリシーの主双対反復が、最適な制約付きポリシーを含む鞍点に線形レートで収束することを証明します。
私たちの知る限り、この成果は、制約付き MDP における単一時間スケールのアルゴリズムに対する最初の非漸近的ポリシーの最終反復収束結果であると思われます。
要約(オリジナル)
We study the problem of computing an optimal policy of an infinite-horizon discounted constrained Markov decision process (constrained MDP). Despite the popularity of Lagrangian-based policy search methods used in practice, the oscillation of policy iterates in these methods has not been fully understood, bringing out issues such as violation of constraints and sensitivity to hyper-parameters. To fill this gap, we employ the Lagrangian method to cast a constrained MDP into a constrained saddle-point problem in which max/min players correspond to primal/dual variables, respectively, and develop two single-time-scale policy-based primal-dual algorithms with non-asymptotic convergence of their policy iterates to an optimal constrained policy. Specifically, we first propose a regularized policy gradient primal-dual (RPG-PD) method that updates the policy using an entropy-regularized policy gradient, and the dual via a quadratic-regularized gradient ascent, simultaneously. We prove that the policy primal-dual iterates of RPG-PD converge to a regularized saddle point with a sublinear rate, while the policy iterates converge sublinearly to an optimal constrained policy. We further instantiate RPG-PD in large state or action spaces by including function approximation in policy parametrization, and establish similar sublinear last-iterate policy convergence. Second, we propose an optimistic policy gradient primal-dual (OPG-PD) method that employs the optimistic gradient method to update primal/dual variables, simultaneously. We prove that the policy primal-dual iterates of OPG-PD converge to a saddle point that contains an optimal constrained policy, with a linear rate. To the best of our knowledge, this work appears to be the first non-asymptotic policy last-iterate convergence result for single-time-scale algorithms in constrained MDPs.
arxiv情報
著者 | Dongsheng Ding,Chen-Yu Wei,Kaiqing Zhang,Alejandro Ribeiro |
発行日 | 2023-06-20 17:27:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google