要約
一般的な微分ゲームは、情報が不完全な場合に効率的な推論のためのハミルトン・ジャコビ・イサクス(HJI)方程式によって解決される値を近似できます。
ただし、従来の方法でそのようなゲームを解決することは、次元(COD)の呪いに遭遇します。
物理学に基づいたニューラルネットワーク(PINN)は、CODと近似値を軽減するためのスケーラブルなアプローチを提供しますが、状態の制約が特に安全性が批判的なアプリケーションで大きなリプシッツ定数を持つ値につながる場合、バニラPINNを介した値近似に収束の問題が存在します。
CODのアドレス指定に加えて、特定のプレーヤータイプの構成ごとに複数のゲームをトレーニングするのではなく、ゲームのパラメトリックスペースで一般化可能な値を学習する必要があります。
これらの課題を克服するために、ハイブリッドニューラルオペレーター(HNO)を提案します。これは、ゲームのパラメーター関数をマッピングして関数を評価できるオペレーターです。
HNOは、モデル改良のための空間的空間空間全体にわたって有益な監視されたデータとサンプルPDE駆動型データを活用します。
非線形ダイナミクスと状態制約を備えた9Dおよび13DシナリオでHNOを評価し、それを監視されたニューラル演算子(Deeponetのバリアント)と比較します。
同じ計算予算とトレーニングデータの下で、HNOは安全性能のためにSNOを上回ります。
この作業は、複雑なヒトロボットまたはマルチエージェント相互作用のリアルタイム推論を可能にするスケーラブルで一般化可能な値関数近似に向けたステップを提供します。
要約(オリジナル)
General-sum differential games can approximate values solved by Hamilton-Jacobi-Isaacs (HJI) equations for efficient inference when information is incomplete. However, solving such games through conventional methods encounters the curse of dimensionality (CoD). Physics-informed neural networks (PINNs) offer a scalable approach to alleviate the CoD and approximate values, but there exist convergence issues for value approximations through vanilla PINNs when state constraints lead to values with large Lipschitz constants, particularly in safety-critical applications. In addition to addressing CoD, it is necessary to learn a generalizable value across a parametric space of games, rather than training multiple ones for each specific player-type configuration. To overcome these challenges, we propose a Hybrid Neural Operator (HNO), which is an operator that can map parameter functions for games to value functions. HNO leverages informative supervised data and samples PDE-driven data across entire spatial-temporal space for model refinement. We evaluate HNO on 9D and 13D scenarios with nonlinear dynamics and state constraints, comparing it against a Supervised Neural Operator (a variant of DeepONet). Under the same computational budget and training data, HNO outperforms SNO for safety performance. This work provides a step toward scalable and generalizable value function approximation, enabling real-time inference for complex human-robot or multi-agent interactions.
arxiv情報
著者 | Lei Zhang,Mukesh Ghimire,Wenlong Zhang,Zhe Xu,Yi Ren |
発行日 | 2025-03-10 07:19:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google