Value Approximation for Two-Player General-Sum Differential Games with State Constraints

要約

ハミルトン・ヤコビ・アイザックス (HJI) 偏微分方程式を解くと、2 プレイヤーの差分ゲームでの平衡フィードバック制御が数値的に可能になりますが、次元性 (CoD) の呪いに直面します。
物理情報に基づくニューラル ネットワーク (PINN) は偏微分方程式を解く際の CoD の軽減に有望であることが示されていますが、バニラ PINN はサンプリングの性質により不連続な解の学習には不十分であり、状態や状態によって値が不連続である場合、結果として得られるポリシーの安全性が低下します。
時相論理制約。
この研究では、この課題に対する 3 つの潜在的な解決策を検討します。(1) 監視平衡と HJI PDE の両方によって導かれるハイブリッド学習方法、(2) リプシッツを増加させながら一連の HJI を解く価値強化方法
制約違反ペナルティに関する定数、および (3) 値をより高次元の状態空間に持ち上げて連続的になるエピグラフィカルな手法。
5D および 9D の車両および 13D ドローンのシミュレーションによる評価では、ハイブリッド手法が監視平衡値とコステイトの両方、および PINN 損失勾配の低コストを利用することにより、一般化と安全性能の点で他の手法よりも優れていることが明らかになりました。

要約(オリジナル)

Solving Hamilton-Jacobi-Isaacs (HJI) PDEs numerically enables equilibrial feedback control in two-player differential games, yet faces the curse of dimensionality (CoD). While physics-informed neural networks (PINNs) have shown promise in alleviating CoD in solving PDEs, vanilla PINNs fall short in learning discontinuous solutions due to their sampling nature, leading to poor safety performance of the resulting policies when values are discontinuous due to state or temporal logic constraints. In this study, we explore three potential solutions to this challenge: (1) a hybrid learning method that is guided by both supervisory equilibria and the HJI PDE, (2) a value-hardening method where a sequence of HJIs are solved with increasing Lipschitz constant on the constraint violation penalty, and (3) the epigraphical technique that lifts the value to a higher dimensional state space where it becomes continuous. Evaluations through 5D and 9D vehicle and 13D drone simulations reveal that the hybrid method outperforms others in terms of generalization and safety performance by taking advantage of both the supervisory equilibrium values and costates, and the low cost of PINN loss gradients.

arxiv情報

著者 Lei Zhang,Mukesh Ghimire,Wenlong Zhang,Zhe Xu,Yi Ren
発行日 2024-05-06 22:17:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG, cs.RO パーマリンク