A Primal-Dual-Critic Algorithm for Offline Constrained Reinforcement Learning

要約

オフラインの制約付き強化学習 (RL) は、既存のデータセットを使用して、コスト関数の期待値に対する制約に従って、期待される累積報酬を最大化するポリシーを学習することを目的としています。
この論文では、一般関数近似を使用したオフライン制約付き RL のための新しいアルゴリズムである Primal-Dual-Critic Algorithm (PDCA) を提案します。
PDCA は、批評家によって推定されたラグランジュ関数に対して主双対アルゴリズムを実行します。
プライマリ プレーヤーは、批評家とデュアル プレーヤーの任意の選択を考慮して、後悔のないポリシー最適化オラクルを使用して、ラグランジュ推定値を最大化します。
デュアル プレーヤーは、後悔のないオンライン線形最適化オラクルを使用して、批評家と主プレーヤーの任意の選択を考慮してラグランジュ推定を最小化します。
PDCA が、制約付き RL 問題にほぼ最適な、ラグランジュの鞍点付近を首尾よく見つけることができることを示します。
集中性と強力なベルマン完全性の仮定を必要とする以前の研究とは異なり、PDCA は集中性と価値関数/周辺化された重要度の重みの実現可能性の仮定のみを必要とします。

要約(オリジナル)

Offline constrained reinforcement learning (RL) aims to learn a policy that maximizes the expected cumulative reward subject to constraints on expected value of cost functions using an existing dataset. In this paper, we propose Primal-Dual-Critic Algorithm (PDCA), a novel algorithm for offline constrained RL with general function approximation. PDCA runs a primal-dual algorithm on the Lagrangian function estimated by critics. The primal player employs a no-regret policy optimization oracle to maximize the Lagrangian estimate given any choices of the critics and the dual player. The dual player employs a no-regret online linear optimization oracle to minimize the Lagrangian estimate given any choices of the critics and the primal player. We show that PDCA can successfully find a near saddle point of the Lagrangian, which is nearly optimal for the constrained RL problem. Unlike previous work that requires concentrability and strong Bellman completeness assumptions, PDCA only requires concentrability and value function/marginalized importance weight realizability assumptions.

arxiv情報

著者 Kihyuk Hong,Yuhang Li,Ambuj Tewari
発行日 2023-06-13 14:50:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク