要約
2プレイヤーのリスクに敏感な衝突を回避する相互作用のためのナッシュ平衡ポリシーを学ぶ問題を検討します。
このような一般的な微分ゲームのハミルトン・ジャコビ・イサクス方程式をリアルタイムで解決することは、状態空間の平衡値の不連続性のために、オープンな挑戦です。
一般的な解決策は、特定のシステム状態とアクションの平衡ハミルトニアンに近いニューラルネットワークを学習することです。
ただし、学習は通常監視されており、衝突のリスクを軽減するために、さまざまな初期状態からの大量のサンプル平衡ポリシーが必要です。
このホワイトペーパーでは、平衡ポリシーのよりデータ効率の高い学習に対する2つの貢献を主張しています。まず、バリューネットワークを介してハミルトニアンを計算する代わりに、平衡回避がエージェントの損失機能を支配する場合、衝突回避がエージェントの損失機能を支配している場合、したがって学習するためのデータ効率であることを示します。
第二に、理論主導のアクティブ学習を導入してデータサンプリングをガイドします。ここでは、取得関数が予測された共同ステートのポントリアギンの最大原則へのコンプライアンスを測定します。
制御されていない交差点の場合、提案された方法は、同じデータ収集予算の下での最先端よりも平衡ポリシーのより一般化可能な近似につながり、衝突確率が低くなります。
要約(オリジナル)
We consider the problem of learning Nash equilibrial policies for two-player risk-sensitive collision-avoiding interactions. Solving the Hamilton-Jacobi-Isaacs equations of such general-sum differential games in real time is an open challenge due to the discontinuity of equilibrium values on the state space. A common solution is to learn a neural network that approximates the equilibrium Hamiltonian for given system states and actions. The learning, however, is usually supervised and requires a large amount of sample equilibrium policies from different initial states in order to mitigate the risks of collisions. This paper claims two contributions towards more data-efficient learning of equilibrium policies: First, instead of computing Hamiltonian through a value network, we show that the equilibrium co-states have simple structures when collision avoidance dominates the agents’ loss functions and system dynamics is linear, and therefore are more data-efficient to learn. Second, we introduce theory-driven active learning to guide data sampling, where the acquisition function measures the compliance of the predicted co-states to Pontryagin’s Maximum Principle. On an uncontrolled intersection case, the proposed method leads to more generalizable approximation of the equilibrium policies, and in turn, lower collision probabilities, than the state-of-the-art under the same data acquisition budget.
arxiv情報
著者 | Lei Zhang,Siddharth Das,Tanner Merry,Wenlong Zhang,Yi Ren |
発行日 | 2025-03-10 07:52:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google