Approximating Discontinuous Nash Equilibrial Values of Two-Player General-Sum Differential Games

要約

2 プレイヤー差分ゲームのナッシュ均衡ポリシーを見つけるには、Hamilton-Jacobi-Isaacs (HJI) PDE を解く必要があります。
自己教師あり学習は、次元の呪いを回避しながら、このような偏微分方程式の解を近似するために使用されてきました。
ただし、この方法はサンプリングの性質により不連続 PDE 解を学習できず、プレイヤーの報酬が不連続である場合、ロボット工学アプリケーションで得られるコントローラーの安全性能が低下します。
このホワイト ペーパーでは、この問題に対する 2 つの潜在的な解決策を調査します。教師ありナッシュ均衡と HJI PDE の両方を活用するハイブリッド法と、HJI のシーケンスを徐々に強化する報酬で解決する価値硬化法です。
それぞれ 5D および 9D 状態空間を使用した 2 つの車両相互作用シミュレーション研究で得られた一般化と安全性能を使用して、これらのソリューションを比較します。
結果は、有益な監視 (例: 衝突および衝突に近いデモンストレーション) と自己教師あり学習の低コストにより、ハイブリッド手法は、教師あり、自己教師あり、および値強化アプローチよりも、同等の計算予算でより優れた安全性能を達成することを示しています。
値の硬化は、有益な監督なしでは高次元のケースでは一般化できません。
最後に、偏微分方程式を学習するために神経活性化関数は継続的に微分可能である必要があり、その選択はケースに依存する可能性があることを示します。

要約(オリジナル)

Finding Nash equilibrial policies for two-player differential games requires solving Hamilton-Jacobi-Isaacs (HJI) PDEs. Self-supervised learning has been used to approximate solutions of such PDEs while circumventing the curse of dimensionality. However, this method fails to learn discontinuous PDE solutions due to its sampling nature, leading to poor safety performance of the resulting controllers in robotics applications when player rewards are discontinuous. This paper investigates two potential solutions to this problem: a hybrid method that leverages both supervised Nash equilibria and the HJI PDE, and a value-hardening method where a sequence of HJIs are solved with a gradually hardening reward. We compare these solutions using the resulting generalization and safety performance in two vehicle interaction simulation studies with 5D and 9D state spaces, respectively. Results show that with informative supervision (e.g., collision and near-collision demonstrations) and the low cost of self-supervised learning, the hybrid method achieves better safety performance than the supervised, self-supervised, and value hardening approaches on equal computational budget. Value hardening fails to generalize in the higher-dimensional case without informative supervision. Lastly, we show that the neural activation function needs to be continuously differentiable for learning PDEs and its choice can be case dependent.

arxiv情報

著者 Lei Zhang,Mukesh Ghimire,Wenlong Zhang,Zhe Xu,Yi Ren
発行日 2023-02-27 07:54:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG, cs.RO パーマリンク