Value Approximation for Two-Player General-Sum Differential Games with State Constraints

要約

ハミルトン・ヤコビ・アイザックス (HJI) 偏微分方程式を解くと、2 プレイヤーの差分ゲームで平衡フィードバック制御が可能になりますが、次元性 (CoD) の呪いに直面します。
偏微分方程式を解く際の CoD に対処するために物理情報に基づく機械学習が採用されていますが、この方法はサンプリングの性質により不連続な解の学習には不十分であり、状態や状態によって値が不連続になるロボット工学アプリケーションで得られるコントローラーの安全性能が低下します。
その他の時相論理制約。
この研究では、この問題に対する 3 つの潜在的な解決策を検討します: (1) 平衡実証と HJI PDE の両方を使用するハイブリッド学習方法、(2) 一連の HJI をリプシッツ定数を増加させながら解く価値強化方法
制約違反ペナルティ、および (3) 値をより高次元の補助状態空間に持ち上げて値が連続になるエピグラフィカル手法。
5Dおよび9Dの車両シミュレーションと13Dのドローンシミュレーションによる評価では、ハイブリッド方式が汎用性と安全性能の点で他の方式よりも優れていることが明らかになりました。

要約(オリジナル)

Solving Hamilton-Jacobi-Isaacs (HJI) PDEs enables equilibrial feedback control in two-player differential games, yet faces the curse of dimensionality (CoD). While physics-informed machine learning has been adopted to address CoD in solving PDEs, this method falls short in learning discontinuous solutions due to its sampling nature, leading to poor safety performance of the resulting controllers in robotics applications where values are discontinuous due to state or other temporal logic constraints. In this study, we explore three potential solutions to this problem: (1) a hybrid learning method that uses both equilibrium demonstrations and the HJI PDE, (2) a value-hardening method where a sequence of HJIs are solved with increasing Lipschitz constant on the constraint violation penalty, and (3) the epigraphical technique that lifts the value to a higher dimensional auxiliary state space where the value becomes continuous. Evaluations through 5D and 9D vehicle simulations and 13D drone simulations reveal that the hybrid method outperforms others in terms of generalization and safety performance.

arxiv情報

著者 Lei Zhang,Mukesh Ghimire,Wenlong Zhang,Zhe Xu,Yi Ren
発行日 2023-11-28 04:58:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG, cs.RO パーマリンク