iPLAN: Intent-Aware Planning in Heterogeneous Traffic via Distributed Multi-Agent Reinforcement Learning

要約

自動運転車 (AV) は近くのドライバーの行動や意図を推測できないため、密集した異種交通シナリオで安全かつ効率的に移動することは困難です。
この研究では、高密度で異種のトラフィック シナリオにおける軌跡と意図を予測できる分散マルチエージェント強化学習 (MARL) アルゴリズムを紹介します。
意図を認識した計画を立てるための当社のアプローチである iPLAN を使用すると、エージェントは近くのドライバーの現地の観察のみからその意図を推測できます。
エージェントの戦略に対する 2 つの異なるインセンティブをモデル化します。1 つは運転行動や性格に基づく高レベルの意思決定に対する行動インセンティブ、もう 1 つは現在の交通状態に基づく衝突回避のための動作計画に対する即時インセンティブです。
私たちのアプローチにより、エージェントは対戦相手の行動のインセンティブを推測し、この推測された情報を意思決定および動作計画のプロセスに統合することができます。
非協調ナビゲーションと異種ハイウェイという 2 つのシミュレーション環境で実験を行います。
異種ハイウェイでは、QMIX や MAPPO などの集中トレーニング分散実行 (CTDE) MARL ベースラインと比較して、私たちの方法は穏やかで混沌としたトラフィックで 4.3% および 38.4% 高いエピソード報酬をもたらし、成功率は 48.1% 高く、
混乱した交通状況での生存時間が 80.6% 長くなりました。
また、分散型トレーニング分散実行 (DTDE) のベースライン IPPO と比較し、穏やかなトラフィックと混沌としたトラフィックでは 12.7% と 6.3% という高いエピソード報酬、25.3% 高い成功率、および 13.7% 長い生存時間を示しています。

要約(オリジナル)

Navigating safely and efficiently in dense and heterogeneous traffic scenarios is challenging for autonomous vehicles (AVs) due to their inability to infer the behaviors or intentions of nearby drivers. In this work, we introduce a distributed multi-agent reinforcement learning (MARL) algorithm that can predict trajectories and intents in dense and heterogeneous traffic scenarios. Our approach for intent-aware planning, iPLAN, allows agents to infer nearby drivers’ intents solely from their local observations. We model two distinct incentives for agents’ strategies: Behavioral Incentive for high-level decision-making based on their driving behavior or personality and Instant Incentive for motion planning for collision avoidance based on the current traffic state. Our approach enables agents to infer their opponents’ behavior incentives and integrate this inferred information into their decision-making and motion-planning processes. We perform experiments on two simulation environments, Non-Cooperative Navigation and Heterogeneous Highway. In Heterogeneous Highway, results show that, compared with centralized training decentralized execution (CTDE) MARL baselines such as QMIX and MAPPO, our method yields a 4.3% and 38.4% higher episodic reward in mild and chaotic traffic, with 48.1% higher success rate and 80.6% longer survival time in chaotic traffic. We also compare with a decentralized training decentralized execution (DTDE) baseline IPPO and demonstrate a higher episodic reward of 12.7% and 6.3% in mild traffic and chaotic traffic, 25.3% higher success rate, and 13.7% longer survival time.

arxiv情報

著者 Xiyang Wu,Rohan Chandra,Tianrui Guan,Amrit Singh Bedi,Dinesh Manocha
発行日 2023-08-21 05:06:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA, cs.RO パーマリンク