要約
ゼロサム線形二次 (LQ) ゲームは最適制御の基礎であり、(i) リスクに敏感な制御またはロバストな制御のための動的なゲーム定式化として、および (ii) を使用したマルチエージェント強化学習のベンチマーク設定として使用できます。
継続的な状態制御空間で競合する 2 つのエージェント。
よく研究されている単一エージェントの線形二次レギュレータ問題とは対照的に、ゼロサム LQ ゲームでは、保磁力のない目的関数を使用して、困難な非凸非凹の最小最大問題を解決する必要があります。
最近、Zhang ら。
有限ホライズンゼロサム LQ ゲームの ~$\epsilon$-ナッシュ均衡 (NE) が、poly$(1/\epsilon)$ サンプルの複雑さを持つ入れ子になったモデルフリーの Natural Policy Gradient (NPG) アルゴリズムによって学習できることを示しました。
この研究では、サンプルの複雑さを数桁改善し、最後の反復の収束を保証する、より単純なネストされたゼロ次 (ZO) アルゴリズムを提案します。
私たちの主な結果は 2 つあります。(i) 決定論的設定では、ゼロサム LQ ゲームの NE を求める入れ子アルゴリズムの最初のグローバル最終反復線形収束結果を確立します。
(ii) モデルフリー設定では、単一点 ZO 推定器を使用して a~$\widetilde{\mathcal{O}}(\epsilon^{-2})$ サンプルの複雑さを確立します。
最後の反復の収束結果については、分析では暗黙的正則化 (IR) プロパティと主関数の新しい勾配支配条件を利用します。
サンプルの複雑さにおける重要な改善は、よりサンプル効率の高いネストされたアルゴリズム設計と、有限ホライズン設定によって与えられる構造を利用した ZO 自然勾配推定誤差のより細かい制御に依存しています。
要約(オリジナル)
Zero-sum Linear Quadratic (LQ) games are fundamental in optimal control and can be used (i)~as a dynamic game formulation for risk-sensitive or robust control and (ii)~as a benchmark setting for multi-agent reinforcement learning with two competing agents in continuous state-control spaces. In contrast to the well-studied single-agent linear quadratic regulator problem, zero-sum LQ games entail solving a challenging nonconvex-nonconcave min-max problem with an objective function that lacks coercivity. Recently, Zhang et al. showed that an~$\epsilon$-Nash equilibrium (NE) of finite horizon zero-sum LQ games can be learned via nested model-free Natural Policy Gradient (NPG) algorithms with poly$(1/\epsilon)$ sample complexity. In this work, we propose a simpler nested Zeroth-Order (ZO) algorithm improving sample complexity by several orders of magnitude and guaranteeing convergence of the last iterate. Our main results are two-fold: (i) in the deterministic setting, we establish the first global last-iterate linear convergence result for the nested algorithm that seeks NE of zero-sum LQ games; (ii) in the model-free setting, we establish a~$\widetilde{\mathcal{O}}(\epsilon^{-2})$ sample complexity using a single-point ZO estimator. For our last-iterate convergence results, our analysis leverages the Implicit Regularization (IR) property and a new gradient domination condition for the primal function. Our key improvements in the sample complexity rely on a more sample-efficient nested algorithm design and a finer control of the ZO natural gradient estimation error utilizing the structure endowed by the finite-horizon setting.
arxiv情報
著者 | Jiduan Wu,Anas Barakat,Ilyas Fatkhullin,Niao He |
発行日 | 2023-10-29 21:02:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google