要約
敵対的な環境で競争戦略を生成し、継続的な動作計画を同時に実行することは、困難な問題です。
さらに、敵対的なマルチエージェント環境に自律システムを展開するには、他のエージェントの意図を理解することが重要です。
既存のアプローチは、同様の制御入力をグループ化することでエージェントの動作を離散化し、動作計画のパフォーマンスを犠牲にするか、解釈できない潜在空間で計画を立てて、理解しにくいエージェントの動作を生成します。
さらに、最も一般的な政策最適化フレームワークは、アクションの長期的な影響を認識しておらず、近視眼的なものになっています。
この論文では、エージェントアクションの明確な意図を提供する抽象化によるエージェントアクション離散化手法、エージェント母集団合成の効率的なオフラインパイプライン、関数近似による反事実的後悔の最小化を使用した計画戦略を提案します。
最後に、大規模な自動運転車に関する調査結果を、直接対決のレース環境で実験的に検証します。
提案されたフレームワークを使用すると、学習が大幅に改善され、さまざまな対戦相手に対する勝率が向上し、その改善が目に見えない環境で目に見えない対戦相手に伝達される可能性があることを実証します。
要約(オリジナル)
Generating competitive strategies and performing continuous motion planning simultaneously in an adversarial setting is a challenging problem. In addition, understanding the intent of other agents is crucial to deploying autonomous systems in adversarial multi-agent environments. Existing approaches either discretize agent action by grouping similar control inputs, sacrificing performance in motion planning, or plan in uninterpretable latent spaces, producing hard-to-understand agent behaviors. Furthermore, the most popular policy optimization frameworks do not recognize the long-term effect of actions and become myopic. This paper proposes an agent action discretization method via abstraction that provides clear intentions of agent actions, an efficient offline pipeline of agent population synthesis, and a planning strategy using counterfactual regret minimization with function approximation. Finally, we experimentally validate our findings on scaled autonomous vehicles in a head-to-head racing setting. We demonstrate that using the proposed framework significantly improves learning, improves the win rate against different opponents, and the improvements can be transferred to unseen opponents in an unseen environment.
arxiv情報
著者 | Hongrui Zheng,Zhijun Zhuang,Johannes Betz,Rahul Mangharam |
発行日 | 2023-10-10 18:53:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google