要約
ゼロサム線形二次 (LQ) ゲームは最適制御の基礎であり、(i) リスクに敏感な制御またはロバストな制御のための動的なゲーム定式化として、または (ii) 2 つのエージェントによるマルチエージェント強化学習のベンチマーク設定として使用できます。
継続的な状態制御空間で競合するエージェント。
よく研究されている単一エージェントの線形二次レギュレータ問題とは対照的に、ゼロサム LQ ゲームでは、保磁力のない目的関数を使用して、困難な非凸非凹の最小最大問題を解決する必要があります。
最近、Zhang ら。
は、自然政策勾配法の暗黙的な正則化特性を発見しました。これは、学習中にコントローラーの堅牢性を維持するため、セーフティ クリティカルな制御システムにとって重要です。
さらに、モデルパラメータの知識が利用できないモデルフリー設定では、Zhang et al.
望ましい陰的正則化特性を維持しながら、ナッシュ均衡の $\epsilon$ 近傍に到達する最初の多項式サンプル複雑度アルゴリズムを提案しました。
この研究では、サンプルの複雑さを数桁改善する、より単純なネストされたゼロ次 (ZO) アルゴリズムを提案します。
私たちの主な結果は、単一点 ZO 推定器を使用した同じ仮定の下で $\widetilde{\mathcal{O}}(\epsilon^{-3})$ のサンプル複雑さを保証します。
さらに、推定量が 2 点推定量に置き換えられると、私たちの方法では $\widetilde{\mathcal{O}}(\epsilon^{-2})$ サンプルの複雑さが向上します。
私たちの主な改善は、よりサンプル効率の高い入れ子アルゴリズム設計と、ZO 自然勾配推定誤差のより細かい制御に依存しています。
要約(オリジナル)
Zero-sum Linear Quadratic (LQ) games are fundamental in optimal control and can be used (i) as a dynamic game formulation for risk-sensitive or robust control, or (ii) as a benchmark setting for multi-agent reinforcement learning with two competing agents in continuous state-control spaces. In contrast to the well-studied single-agent linear quadratic regulator problem, zero-sum LQ games entail solving a challenging nonconvex-nonconcave min-max problem with an objective function that lacks coercivity. Recently, Zhang et al. discovered an implicit regularization property of natural policy gradient methods which is crucial for safety-critical control systems since it preserves the robustness of the controller during learning. Moreover, in the model-free setting where the knowledge of model parameters is not available, Zhang et al. proposed the first polynomial sample complexity algorithm to reach an $\epsilon$-neighborhood of the Nash equilibrium while maintaining the desirable implicit regularization property. In this work, we propose a simpler nested Zeroth-Order (ZO) algorithm improving sample complexity by several orders of magnitude. Our main result guarantees a $\widetilde{\mathcal{O}}(\epsilon^{-3})$ sample complexity under the same assumptions using a single-point ZO estimator. Furthermore, when the estimator is replaced by a two-point estimator, our method enjoys a better $\widetilde{\mathcal{O}}(\epsilon^{-2})$ sample complexity. Our key improvements rely on a more sample-efficient nested algorithm design and finer control of the ZO natural gradient estimation error.
arxiv情報
著者 | Jiduan Wu,Anas Barakat,Ilyas Fatkhullin,Niao He |
発行日 | 2023-09-08 11:47:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google