A Systematic Study of Multi-Agent Deep Reinforcement Learning for Safe and Robust Autonomous Highway Ramp Entry

要約

現在の車両は高速道路で自動運転が可能であり、大都市では無人ロボタクシーが運行されており、より高度なレベルの自動運転が利用可能になり、将来的にはより一般的になることが予想されます。
しかし、技術的に言えば、完全な自律性に相当する、いわゆる「レベル 5」(L5)の動作は達成されていません。
そのためには、完全自動運転の高速道路ランプ進入などの機能が利用可能であり、完全自動運転を可能にする実証済みの安全で信頼性の高い堅牢な動作を提供する必要があります。
我々は、合流(自家)車両が進入する高速道路の交通の流れとの衝突を最小限に抑えるために、車両の前進動作を制御する高速道路ランプ機能の体系的な研究を紹介します。
私たちはこの問題に対してゲーム理論的なマルチエージェント (MA) アプローチを採用し、深層強化学習 (DRL) に基づくコントローラーの使用を研究しています。
MA DRL の仮想環境は、シミュレートされたデータによる自己再生を使用して、合流する車両がテーパー型合流中に縦方向の位置を制御する方法を安全​​に学習します。
この論文で紹介される研究は、2 台以上の車両 (エージェント) の相互作用を研究することで既存の研究を拡張し、追加の交通車両と自我車両を使用して道路シーンを体系的に拡張することによって実現します。
2 台の車両の設定に関するこれまでの研究では、完全に分散化された非調整環境では衝突のないコントローラーは理論的に不可能であることが証明されましたが、私たちのアプローチを使用して学習されたコントローラーは、理想的な最適コントローラーと比較して測定した場合、ほぼ理想的であることが経験的に示されています。

要約(オリジナル)

Vehicles today can drive themselves on highways and driverless robotaxis operate in major cities, with more sophisticated levels of autonomous driving expected to be available and become more common in the future. Yet, technically speaking, so-called ‘Level 5’ (L5) operation, corresponding to full autonomy, has not been achieved. For that to happen, functions such as fully autonomous highway ramp entry must be available, and provide provably safe, and reliably robust behavior to enable full autonomy. We present a systematic study of a highway ramp function that controls the vehicles forward-moving actions to minimize collisions with the stream of highway traffic into which a merging (ego) vehicle enters. We take a game-theoretic multi-agent (MA) approach to this problem and study the use of controllers based on deep reinforcement learning (DRL). The virtual environment of the MA DRL uses self-play with simulated data where merging vehicles safely learn to control longitudinal position during a taper-type merge. The work presented in this paper extends existing work by studying the interaction of more than two vehicles (agents) and does so by systematically expanding the road scene with additional traffic and ego vehicles. While previous work on the two-vehicle setting established that collision-free controllers are theoretically impossible in fully decentralized, non-coordinated environments, we empirically show that controllers learned using our approach are nearly ideal when measured against idealized optimal controllers.

arxiv情報

著者 Larry Schester,Luis E. Ortiz
発行日 2024-11-21 21:23:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, cs.RO, cs.SY, eess.SY, I.2.11 パーマリンク