HM-ViT: Hetero-modal Vehicle-to-Vehicle Cooperative perception with vision transformer

要約

タイトル:HM-ViT :異種モダリティの車両間協調知覚におけるビジョントランスフォーマー

・自動車間技術により、自律走行車両が情報を共有することで、覆い隠された状態を見ることができるようになった。それによって、知覚性能が大幅に向上した。
・しかしながら、既存の研究はすべて、同じタイプのセンサーを装備した同種の交通に焦点を当てており、異なるセンサーモダリティを持つエージェント間の協調を促進するためには、大幅にスケールアップが必要である。
・本論文では、異なるセンサーモダリティを持つエージェント間のマルチエージェント異種モダリティ協調知覚問題を調査し、変化するエージェントの数やタイプに対応することができる最初の統合マルチエージェント異種モダリティ協調知覚フレームワークであるHM-ViTを提案する。
・異なる視点画像とLiDARポイントクラウドからの特徴の効果的な融合のために、我々は新しい異種3Dグラフトランスフォーマーを設計し、エージェント間とエージェント内の相互作用を共同で処理する。
・OPV2VのV2V知覚データセットでの豊富な実験により、HM-ViTがV2V異種モダリティ協調知覚の実用的な手法を超えたことが示された。我々は、今後の研究を促進するためのコードをリリースする予定である。

要約(オリジナル)

Vehicle-to-Vehicle technologies have enabled autonomous vehicles to share information to see through occlusions, greatly enhancing perception performance. Nevertheless, existing works all focused on homogeneous traffic where vehicles are equipped with the same type of sensors, which significantly hampers the scale of collaboration and benefit of cross-modality interactions. In this paper, we investigate the multi-agent hetero-modal cooperative perception problem where agents may have distinct sensor modalities. We present HM-ViT, the first unified multi-agent hetero-modal cooperative perception framework that can collaboratively predict 3D objects for highly dynamic vehicle-to-vehicle (V2V) collaborations with varying numbers and types of agents. To effectively fuse features from multi-view images and LiDAR point clouds, we design a novel heterogeneous 3D graph transformer to jointly reason inter-agent and intra-agent interactions. The extensive experiments on the V2V perception dataset OPV2V demonstrate that the HM-ViT outperforms SOTA cooperative perception methods for V2V hetero-modal cooperative perception. We will release codes to facilitate future research.

arxiv情報

著者 Hao Xiang,Runsheng Xu,Jiaqi Ma
発行日 2023-04-20 20:09:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク