V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision Transformer

要約

本論文では、自律走行車の知覚性能を向上させるためのVehicle-to-Everything (V2X) 通信の応用について検討する。我々は、新しいビジョン変換器を用いて、V2X通信を用いたロバストな協調知覚フレームワークを提示する。具体的には、V2X-ViTと呼ばれる全体的な注意モデルを構築し、道路上のエージェント(すなわち、車両とインフラストラクチャ)にまたがる情報を効果的に融合させる。V2X-ViTは、異種マルチエージェント自己注視とマルチスケールウィンドウ自己注視の交互レイヤーからなり、エージェント間の相互作用とエージェントごとの空間的関係を捉えることができる。これらの主要モジュールは、非同期な情報共有、ポーズエラー、V2Xコンポーネントの異種性など、V2Xに共通する課題を処理するために、統一されたTransformerアーキテクチャで設計されています。我々のアプローチを検証するために、CARLAとOpenCDAを使用して大規模なV2X知覚データセットを作成しました。広範な実験結果により、V2X-ViTは3Dオブジェクト検出のための新たな最先端性能を設定し、過酷でノイズの多い環境下でも堅牢な性能を達成することが実証されています。コードは https://github.com/DerrickXuNu/v2x-vit で公開されています。

要約(オリジナル)

In this paper, we investigate the application of Vehicle-to-Everything (V2X) communication to improve the perception performance of autonomous vehicles. We present a robust cooperative perception framework with V2X communication using a novel vision Transformer. Specifically, we build a holistic attention model, namely V2X-ViT, to effectively fuse information across on-road agents (i.e., vehicles and infrastructure). V2X-ViT consists of alternating layers of heterogeneous multi-agent self-attention and multi-scale window self-attention, which captures inter-agent interaction and per-agent spatial relationships. These key modules are designed in a unified Transformer architecture to handle common V2X challenges, including asynchronous information sharing, pose errors, and heterogeneity of V2X components. To validate our approach, we create a large-scale V2X perception dataset using CARLA and OpenCDA. Extensive experimental results demonstrate that V2X-ViT sets new state-of-the-art performance for 3D object detection and achieves robust performance even under harsh, noisy environments. The code is available at https://github.com/DerrickXuNu/v2x-vit.

arxiv情報

著者 Runsheng Xu,Hao Xiang,Zhengzhong Tu,Xin Xia,Ming-Hsuan Yang,Jiaqi Ma
発行日 2022-08-08 14:52:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク