V2X-VLM: End-to-End V2X Cooperative Autonomous Driving Through Large Vision-Language Models

要約

自動運転の進歩により、環境認識から車両のナビゲーションと制御に至るまで、あらゆる運転タスクを管理するエンドツーエンド (E2E) システムにますます注目が集まっています。
このペーパーでは、大規模ビジョン言語モデル (VLM) を備えた革新的な E2E 車両インフラ協調自動運転 (VICAD) フレームワークである V2X-VLM について紹介します。
V2X-VLM は、車載カメラ、インフラセンサー、テキスト情報からのデータを統合することで、状況認識、意思決定、最終的な軌道計画を強化するように設計されています。
VLM の包括的なマルチモデル データの融合の強みにより、複雑でダイナミックな運転シナリオにおける正確かつ安全な E2E 軌道計画が可能になります。
DAIR-V2X データセットの検証では、V2X-VLM が協調自動運転において既存の最先端の方法よりも優れていることが実証されています。

要約(オリジナル)

Advancements in autonomous driving have increasingly focused on end-to-end (E2E) systems that manage the full spectrum of driving tasks, from environmental perception to vehicle navigation and control. This paper introduces V2X-VLM, an innovative E2E vehicle-infrastructure cooperative autonomous driving (VICAD) framework with large vision-language models (VLMs). V2X-VLM is designed to enhance situational awareness, decision-making, and ultimate trajectory planning by integrating data from vehicle-mounted cameras, infrastructure sensors, and textual information. The strength of the comprehensive multimodel data fusion of the VLM enables precise and safe E2E trajectory planning in complex and dynamic driving scenarios. Validation on the DAIR-V2X dataset demonstrates that V2X-VLM outperforms existing state-of-the-art methods in cooperative autonomous driving.

arxiv情報

著者 Junwei You,Haotian Shi,Zhuoyu Jiang,Zilin Huang,Rui Gan,Keshu Wu,Xi Cheng,Xiaopeng Li,Bin Ran
発行日 2024-08-17 16:42:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク