要約
ハミルトン・ヤコビ・アイザックス (HJI) PDE は、2 人のプレイヤーの総和ゲームの支配方程式です。
価値関数を学習するためのデータ集約型手法である強化学習 (RL) 手法とは異なり、HJ 偏微分方程式の学習では、ゲームのナッシュ均衡値が存在する場合、その値への収束が保証されます。
ただし、状態の次元が増加すると、HJ PDE を解くことが困難になることに注意してください。
次元の呪い (CoD) を回避するには、監視機能を備えた物理学に基づいた機械学習手法を使用できます。これは、2 プレイヤーの総和ゲームで均衡ポリシーを生成するのに効果的であることが示されています。
この研究では、エージェント レベルの 2 プレイヤー ゲームに関する既存の研究を 2 プレイヤーの群れレベルのゲームに拡張し、2 つのサブ群れが総和ゲームをプレイします。
\textit{コルモゴロフの順方程式} を群れの密度の進化の動的モデルとして考えます。
結果は、Physics-informed Neural Network (PINN) から生成されたポリシーが Nash Double Deep Q-Network (Nash DDQN) エージェントよりも高いペイオフをもたらし、数値ソルバーと同等のパフォーマンスを発揮することを示しています。
要約(オリジナル)
Hamilton-Jacobi-Isaacs (HJI) PDEs are the governing equations for the two-player general-sum games. Unlike Reinforcement Learning (RL) methods, which are data-intensive methods for learning value function, learning HJ PDEs provide a guaranteed convergence to the Nash Equilibrium value of the game when it exists. However, a caveat is that solving HJ PDEs becomes intractable when the state dimension increases. To circumvent the curse of dimensionality (CoD), physics-informed machine learning methods with supervision can be used and have been shown to be effective in generating equilibrial policies in two-player general-sum games. In this work, we extend the existing work on agent-level two-player games to a two-player swarm-level game, where two sub-swarms play a general-sum game. We consider the \textit{Kolmogorov forward equation} as the dynamic model for the evolution of the densities of the swarms. Results show that policies generated from the physics-informed neural network (PINN) result in a higher payoff than a Nash Double Deep Q-Network (Nash DDQN) agent and have comparable performance with numerical solvers.
arxiv情報
著者 | Mukesh Ghimire,Lei Zhang,Wenlong Zhang,Yi Ren,Zhe Xu |
発行日 | 2023-11-03 00:36:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google