iPLAN: Intent-Aware Planning in Heterogeneous Traffic via Distributed Multi-Agent Reinforcement Learning

要約

自動運転車 (AV) は近くのドライバーの行動や意図を推測できないため、密集した異種交通シナリオで安全かつ効率的に移動することは困難です。
この研究では、高密度で異種のトラフィック シナリオにおける軌道と意図の予測を備えた分散型マルチエージェント強化学習 (MARL) アルゴリズムを提案します。
意図を認識した計画を立てるための当社のアプローチである iPLAN を使用すると、エージェントは近くのドライバーの現地の観察のみからその意図を推測できます。
エージェントの戦略に対する 2 つの異なるインセンティブをモデル化します。1 つは、エージェントの運転行動や性格に基づく長期計画に対する行動インセンティブです。
現在の交通状況に基づいた衝突回避のためのエージェントの短期計画に対する即時インセンティブ。
私たちは、エージェントが対戦相手のインセンティブを推測し、推測された情報を意思決定に組み込むことができる 2 ストリーム推論モジュールを設計します。
非協調ナビゲーションと異種ハイウェイという 2 つのシミュレーション環境で実験を行います。
異種ハイウェイでは、QMIX や MAPPO などの集中型 MARL ベースラインと比較して、私たちの方法が穏やかで混沌とした交通で 4.0% および 35.7% 高い一時的報酬をもたらし、成功率が 48.1% 高く、生存時間が 80.6% 長いことが結果から示されています。
混沌とした交通。
また、分散型のベースライン IPPO と比較し、穏やかな交通状況と混沌とした交通状況では 9.2% と 10.3% というより高いエピソード報酬、25.3% 高い成功率、13.7% 長い生存時間を示しています。

要約(オリジナル)

Navigating safely and efficiently in dense and heterogeneous traffic scenarios is challenging for autonomous vehicles (AVs) due to their inability to infer the behaviors or intentions of nearby drivers. In this work, we propose a distributed multi-agent reinforcement learning (MARL) algorithm with trajectory and intent prediction in dense and heterogeneous traffic scenarios. Our approach for intent-aware planning, iPLAN, allows agents to infer nearby drivers’ intents solely from their local observations. We model two distinct incentives for agents’ strategies: Behavioral incentives for agents’ long-term planning based on their driving behavior or personality; Instant incentives for agents’ short-term planning for collision avoidance based on the current traffic state. We design a two-stream inference module that allows agents to infer their opponents’ incentives and incorporate their inferred information into decision-making. We perform experiments on two simulation environments, Non-Cooperative Navigation and Heterogeneous Highway. In Heterogeneous Highway, results show that, compared with centralized MARL baselines such as QMIX and MAPPO, our method yields a 4.0% and 35.7% higher episodic reward in mild and chaotic traffic, with 48.1% higher success rate and 80.6% longer survival time in chaotic traffic. We also compare with a decentralized baseline IPPO and demonstrate a higher episodic reward of 9.2% and 10.3% in mild traffic and chaotic traffic, 25.3% higher success rate, and 13.7% longer survival time.

arxiv情報

著者 Xiyang Wu,Rohan Chandra,Tianrui Guan,Amrit Singh Bedi,Dinesh Manocha
発行日 2023-08-17 03:43:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA, cs.RO パーマリンク