EMIFF: Enhanced Multi-scale Image Feature Fusion for Vehicle-Infrastructure Cooperative 3D Object Detection

要約

自動運転では、車両とインフラストラクチャの両方からのマルチビュー カメラを利用した協調的な認識により、単一の車両の視点を超えた道路状況の豊富な意味論的コンテキストを備えたグローバルな視点が提供されます。
現在、車両インフラ連携 3D (VIC3D) 物体検出には 2 つの大きな課題が残っています。1 つは、カメラ間の時間非同期によって引き起こされる、マルチビュー画像を融合する際の $1)$ 固有の姿勢エラーです。
$2)$ 通信帯域幅の制限により、送信プロセスでの情報損失が発生します。
これらの問題に対処するために、VIC3D タスク用の新しいカメラベースの 3D 検出フレームワーク、Enhanced Multi-scale Image Feature Fusion (EMIFF) を提案します。
車両とインフラストラクチャの両方から総合的な視点を最大限に活用するために、姿勢エラーを修正するためにスケール、空間、チャネル レベルでインフラストラクチャと車両の機能を強化するマルチスケール クロス アテンション (MCA) およびカメラ対応チャネル マスキング (CCM) モジュールを提案します。
カメラの非同期によって導入されました。
また、伝送効率を高めるためのチャネルおよび空間圧縮ブロックを備えた特徴圧縮 (FC) モジュールも導入します。
実験の結果、EMIFF は DAIR-V2X-C データセット上で SOTA を達成し、同等の伝送コストで以前の融合初期および融合後期の手法を大幅に上回っていることが示されています。

要約(オリジナル)

In autonomous driving, cooperative perception makes use of multi-view cameras from both vehicles and infrastructure, providing a global vantage point with rich semantic context of road conditions beyond a single vehicle viewpoint. Currently, two major challenges persist in vehicle-infrastructure cooperative 3D (VIC3D) object detection: $1)$ inherent pose errors when fusing multi-view images, caused by time asynchrony across cameras; $2)$ information loss in transmission process resulted from limited communication bandwidth. To address these issues, we propose a novel camera-based 3D detection framework for VIC3D task, Enhanced Multi-scale Image Feature Fusion (EMIFF). To fully exploit holistic perspectives from both vehicles and infrastructure, we propose Multi-scale Cross Attention (MCA) and Camera-aware Channel Masking (CCM) modules to enhance infrastructure and vehicle features at scale, spatial, and channel levels to correct the pose error introduced by camera asynchrony. We also introduce a Feature Compression (FC) module with channel and spatial compression blocks for transmission efficiency. Experiments show that EMIFF achieves SOTA on DAIR-V2X-C datasets, significantly outperforming previous early-fusion and late-fusion methods with comparable transmission costs.

arxiv情報

著者 Zhe Wang,Siqi Fan,Xiaoliang Huo,Tongda Xu,Yan Wang,Jingjing Liu,Yilun Chen,Ya-Qin Zhang
発行日 2024-02-23 11:35:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク