Learning Two-agent Motion Planning Strategies from Generalized Nash Equilibrium for Model Predictive Control

要約

これは、ゲーム理論的な相互作用の結果を予測する学習値関数を、モデル予測制御(MPC)フレームワークにおける最終的なコスト・ツー・ゴー関数として使用し、エージェントが他のエージェントとの相互作用を暗黙的に考慮し、報酬を最大化するように導く。このアプローチは、制約付き動的ゲームとして定式化された、競争的および協調的なマルチエージェント運動計画問題に適用される。制約付き動的ゲームが与えられた場合、初期条件をランダムにサンプリングし、一般化ナッシュ均衡(GNE)を解いてGNE解のデータセットを生成し、GNEから各ゲーム理論的相互作用の報酬結果を計算する。このデータを用いて、報酬結果を予測するための単純なニューラルネットワークを訓練し、MPCスキームにおける最終的なコスト・ツー・ゴー関数として使用する。IGT-MPCを用いた新しい競争行動と協調行動を、2台の車両による正面衝突レースや信号のない交差点のナビゲーションなどのシナリオで紹介する。IGT-MPCは、機械学習とゲーム理論的推論をモデルベースの分散型マルチエージェント運動計画に統合した新しい手法を提供する。

要約(オリジナル)

We introduce an Implicit Game-Theoretic MPC (IGT-MPC), a decentralized algorithm for two-agent motion planning that uses a learned value function that predicts the game-theoretic interaction outcomes as the terminal cost-to-go function in a model predictive control (MPC) framework, guiding agents to implicitly account for interactions with other agents and maximize their reward. This approach applies to competitive and cooperative multi-agent motion planning problems which we formulate as constrained dynamic games. Given a constrained dynamic game, we randomly sample initial conditions and solve for the generalized Nash equilibrium (GNE) to generate a dataset of GNE solutions, computing the reward outcome of each game-theoretic interaction from the GNE. The data is used to train a simple neural network to predict the reward outcome, which we use as the terminal cost-to-go function in an MPC scheme. We showcase emerging competitive and coordinated behaviors using IGT-MPC in scenarios such as two-vehicle head-to-head racing and un-signalized intersection navigation. IGT-MPC offers a novel method integrating machine learning and game-theoretic reasoning into model-based decentralized multi-agent motion planning.

arxiv情報

著者 Hansung Kim,Edward L. Zhu,Chang Seok Lim,Francesco Borrelli
発行日 2025-03-02 23:56:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.MA, cs.RO, cs.SY, eess.SY パーマリンク