要約
自動運転車の安全な運行は、環境を総合的に認識する能力にかかっています。
ただし、オクルージョン、センサー範囲、環境要因により、知覚能力は制限されます。
これらの制限を克服するために、集合的な認識により車両が情報を交換できるようになります。
ただし、この交換された情報を融合するのは困難な作業です。
初期の核融合アプローチは大量の帯域幅を必要としますが、中間核融合アプローチは互換性の問題に直面しています。
現在、共有検出の遅延融合が唯一の実現可能なアプローチです。
ただし、情報損失によりパフォーマンスが低下することがよくあります。
この問題に対処するために、我々は、LiDAR ベースの集合的知覚のための動的多重解像度 3D スパースボクセルグリッドフュージョンバックボーンアーキテクチャである MR3D-Net を提案します。
さまざまな解像度のまばらなボクセル グリッドが、通信帯域幅に適応できる意味のあるコンパクトな環境表現を提供することを示します。
MR3D-Net は、OPV2V 3D オブジェクト検出ベンチマークで最先端のパフォーマンスを達成しながら、初期のフュージョンと比較して必要な帯域幅を最大 94% 削減します。
コードは https://github.com/ekut-es/MR3D-Net で入手できます。
要約(オリジナル)
The safe operation of automated vehicles depends on their ability to perceive the environment comprehensively. However, occlusion, sensor range, and environmental factors limit their perception capabilities. To overcome these limitations, collective perception enables vehicles to exchange information. However, fusing this exchanged information is a challenging task. Early fusion approaches require large amounts of bandwidth, while intermediate fusion approaches face interchangeability issues. Late fusion of shared detections is currently the only feasible approach. However, it often results in inferior performance due to information loss. To address this issue, we propose MR3D-Net, a dynamic multi-resolution 3D sparse voxel grid fusion backbone architecture for LiDAR-based collective perception. We show that sparse voxel grids at varying resolutions provide a meaningful and compact environment representation that can adapt to the communication bandwidth. MR3D-Net achieves state-of-the-art performance on the OPV2V 3D object detection benchmark while reducing the required bandwidth by up to 94% compared to early fusion. Code is available at https://github.com/ekut-es/MR3D-Net
arxiv情報
著者 | Sven Teufel,Jörg Gamerdinger,Georg Volk,Oliver Bringmann |
発行日 | 2024-08-12 13:27:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google