要約
暗黙的なゲーム理論的 MPC (IGT-MPC) を導入します。これは、ゲーム理論的な相互作用の結果を予測する学習値関数をモデル予測の最終コスト関数として使用する、2 エージェントの動作計画のための分散アルゴリズムです。
コントロール (MPC) フレームワークを使用して、エージェントが他のエージェントとのやり取りを暗黙的に考慮し、報酬を最大化するようにガイドします。
このアプローチは、制約付き動的ゲームとして定式化される、競合的および協力的なマルチエージェントの動作計画問題に適用されます。
制約のある動的ゲームを想定して、初期条件をランダムにサンプリングして一般化ナッシュ均衡 (GNE) を解き、GNE 解のデータセットを生成し、GNE からの各ゲーム理論的相互作用の報酬結果を計算します。
このデータは、単純なニューラル ネットワークをトレーニングして報酬結果を予測するために使用されます。これは、MPC スキームの端末コスト関数として使用されます。
2 台の車両による直接対決レースや信号のない交差点ナビゲーションなどのシナリオで、IGT-MPC を使用した新たな競争的かつ協調的な動作を紹介します。
IGT-MPC は、機械学習とゲーム理論的推論をモデルベースの分散型マルチエージェント動作計画に統合する新しい方法を提供します。
要約(オリジナル)
We introduce an Implicit Game-Theoretic MPC (IGT-MPC), a decentralized algorithm for two-agent motion planning that uses a learned value function that predicts the game-theoretic interaction outcomes as the terminal cost-to-go function in a model predictive control (MPC) framework, guiding agents to implicitly account for interactions with other agents and maximize their reward. This approach applies to competitive and cooperative multi-agent motion planning problems which we formulate as constrained dynamic games. Given a constrained dynamic game, we randomly sample initial conditions and solve for the generalized Nash equilibrium (GNE) to generate a dataset of GNE solutions, computing the reward outcome of each game-theoretic interaction from the GNE. The data is used to train a simple neural network to predict the reward outcome, which we use as the terminal cost-to-go function in an MPC scheme. We showcase emerging competitive and coordinated behaviors using IGT-MPC in scenarios such as two-vehicle head-to-head racing and un-signalized intersection navigation. IGT-MPC offers a novel method integrating machine learning and game-theoretic reasoning into model-based decentralized multi-agent motion planning.
arxiv情報
著者 | Hansung Kim,Edward L. Zhu,Chang Seok Lim,Francesco Borrelli |
発行日 | 2024-11-21 09:47:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google