Learning to Play Trajectory Games Against Opponents with Unknown Objectives

要約

インテリジェント ビークルなどの多くの自律型エージェントは、本質的に相互に対話する必要があります。
ゲーム理論は、このようなインタラクティブな設定でロボットの動作を計画するための自然な数学的ツールを提供します。
ただし、このような問題に対する扱いやすいアルゴリズムは、通常、シーン内のすべてのプレーヤーの目的が既知であるという強い仮定に依存しています。
このようなツールをローカル情報のみを使用した自我中心の計画に適用できるようにするために、適応モデル予測ゲームソルバーを提案します。これは、オンラインで他のプレイヤーの目的を共同で推測し、対応する一般化ナッシュ均衡 (GNE) 戦略を計算します。
私たちのアプローチの適応性は、対戦相手の目標の最尤推定 (MLE) に勾配信号が使用される微分可能な軌道ゲーム ソルバーによって有効になります。
このパイプラインの微分可能性により、ニューラル ネットワーク (NN) などの他の微分可能な要素との直接統合が容易になります。
さらに、ゲームのコストを推定するための既存のソルバーとは対照的に、この方法は、部分的な状態観測だけでなく、一般的な不等式制約も処理します。
シミュレートされた 2 つのトラフィック シナリオでは、既存のゲーム理論的方法と非ゲーム理論的モデル予測制御 (MPC) アプローチの両方よりも優れたパフォーマンスが得られます。
また、2 つのハードウェア実験で、アプローチのリアルタイム計画機能と堅牢性を実証します。

要約(オリジナル)

Many autonomous agents, such as intelligent vehicles, are inherently required to interact with one another. Game theory provides a natural mathematical tool for robot motion planning in such interactive settings. However, tractable algorithms for such problems usually rely on a strong assumption, namely that the objectives of all players in the scene are known. To make such tools applicable for ego-centric planning with only local information, we propose an adaptive model-predictive game solver, which jointly infers other players’ objectives online and computes a corresponding generalized Nash equilibrium (GNE) strategy. The adaptivity of our approach is enabled by a differentiable trajectory game solver whose gradient signal is used for maximum likelihood estimation (MLE) of opponents’ objectives. This differentiability of our pipeline facilitates direct integration with other differentiable elements, such as neural networks (NNs). Furthermore, in contrast to existing solvers for cost inference in games, our method handles not only partial state observations but also general inequality constraints. In two simulated traffic scenarios, we find superior performance of our approach over both existing game-theoretic methods and non-game-theoretic model-predictive control (MPC) approaches. We also demonstrate our approach’s real-time planning capabilities and robustness in two hardware experiments.

arxiv情報

著者 Xinjie Liu,Lasse Peters,Javier Alonso-Mora
発行日 2023-03-22 13:22:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク