Multi-Agent Deep Reinforcement Learning for Cooperative and Competitive Autonomous Vehicles using AutoDRIVE Ecosystem

要約

この研究では、自動運転車内で協調動作と競争動作を取り込むための、モジュール式で並列化可能なマルチエージェント深層強化学習フレームワークを提示します。
当社は、独自の品質と機能を備えた 2 つのスケール自動運転車プラットフォームである Nigel と F1TENTH の物理的に正確でグラフィック的に現実的なデジタル ツインを開発するためのイネーブラーとして AutoDRIVE エコシステムを導入し、このエコシステムを活用してマルチエージェント強化学習ポリシーをトレーニングおよび展開します。
まず、共通のポリシー アプローチを使用して単一およびマルチ エージェントの学習設定で限定された状態情報を相互に共有する一連の協力車両 (ナイジェル) を使用して、交差点通過問題を調査します。
次に、個別のポリシー アプローチを使用したマルチエージェント学習設定で、異なる車両セット (F1TENTH) を使用して、敵対的な直接対決の自律レース問題を調査します。
どちらの実験セットでも、エージェントが相互に独立しており、非同期の動作動作を示すため、分散型学習アーキテクチャが採用され、確率的環境でのアプローチの堅牢なトレーニングとテストが可能になりました。
エージェントにまばらな観察スペースを提供し、課せられた運動力学および安全性の制約を暗黙のうちに満たす制御コマンドのサンプルをエージェントに要求することで、問題はさらに悪化しました。
両方の問題ステートメントの実験結果は、トレーニングおよび展開フェーズの定量的指標と定性的コメントの観点から報告されます。

要約(オリジナル)

This work presents a modular and parallelizable multi-agent deep reinforcement learning framework for imbibing cooperative as well as competitive behaviors within autonomous vehicles. We introduce AutoDRIVE Ecosystem as an enabler to develop physically accurate and graphically realistic digital twins of Nigel and F1TENTH, two scaled autonomous vehicle platforms with unique qualities and capabilities, and leverage this ecosystem to train and deploy multi-agent reinforcement learning policies. We first investigate an intersection traversal problem using a set of cooperative vehicles (Nigel) that share limited state information with each other in single as well as multi-agent learning settings using a common policy approach. We then investigate an adversarial head-to-head autonomous racing problem using a different set of vehicles (F1TENTH) in a multi-agent learning setting using an individual policy approach. In either set of experiments, a decentralized learning architecture was adopted, which allowed robust training and testing of the approaches in stochastic environments, since the agents were mutually independent and exhibited asynchronous motion behavior. The problems were further aggravated by providing the agents with sparse observation spaces and requiring them to sample control commands that implicitly satisfied the imposed kinodynamic as well as safety constraints. The experimental results for both problem statements are reported in terms of quantitative metrics and qualitative remarks for training as well as deployment phases.

arxiv情報

著者 Tanmay Vilas Samak,Chinmay Vilas Samak,Venkat Krovi
発行日 2023-09-30 08:33:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, cs.RO パーマリンク