A Two-stage Based Social Preference Recognition in Multi-Agent Autonomous Driving System

要約

マルチエージェント強化学習 (MARL) は、複雑で高密度のシナリオでマルチエージェント自動運転システム (MADS) を構築するための有望なソリューションとなっています。
しかし、ほとんどの方法では、エージェントが利己的に行動していると考えられており、それが衝突行動につながります。
一部の既存の作品には、調整を促進するために社会的価値指向 (SVO) の概念が組み込まれていますが、他のエージェントの SVO に関する知識が不足しているため、保守的な戦略が生じます。
この論文では、エージェントが他のエージェントの SVO を理解できるようにすることで、前述の問題に取り組むことを目的としています。
これを達成するために、私たちは 2 段階のシステム フレームワークを提案します。
まず、エージェントがグラウンド トゥルース SVO を共有して、調整されたトラフィック フローを確立できるようにすることで、ポリシーをトレーニングします。
次に、エージェントの SVO を推定し、それを第 1 段階で訓練されたポリシーと統合する認識ネットワークを開発します。
実験により、私たちが開発した方法は、2 つの最先端の MARL アルゴリズムと比較して、MADS の運転ポリシーのパフォーマンスが大幅に向上することが実証されました。

要約(オリジナル)

Multi-Agent Reinforcement Learning (MARL) has become a promising solution for constructing a multi-agent autonomous driving system (MADS) in complex and dense scenarios. But most methods consider agents acting selfishly, which leads to conflict behaviors. Some existing works incorporate the concept of social value orientation (SVO) to promote coordination, but they lack the knowledge of other agents’ SVOs, resulting in conservative maneuvers. In this paper, we aim to tackle the mentioned problem by enabling the agents to understand other agents’ SVOs. To accomplish this, we propose a two-stage system framework. Firstly, we train a policy by allowing the agents to share their ground truth SVOs to establish a coordinated traffic flow. Secondly, we develop a recognition network that estimates agents’ SVOs and integrates it with the policy trained in the first stage. Experiments demonstrate that our developed method significantly improves the performance of the driving policy in MADS compared to two state-of-the-art MARL algorithms.

arxiv情報

著者 Jintao Xue,Dongkun Zhang,Rong Xiong,Yue Wang,Eryun Liu
発行日 2023-10-05 04:10:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク