要約
障害物を正確に識別することは、自動運転における近接場認識の範囲内での基本的な課題です。
従来、魚眼カメラは、後方視界の障害物の位置特定を含む、包括的な周囲視界の認識によく使用されてきました。
ただし、このようなカメラのパフォーマンスは、暗い場所や夜間、または強い日差しにさらされると大幅に低下する可能性があります。
逆に、超音波センサーなどのコスト効率の高いセンサーは、このような条件下でもほとんど影響を受けません。
したがって、私たちの知る限り、魚眼カメラと超音波センサーを利用して、鳥瞰図(BEV)視点で効率的に障害物を認識するように調整された最初のエンドツーエンドのマルチモーダル融合モデルを紹介します。
最初に、ResNeXt-50 は、各モダリティに固有の特徴を抽出するためのユニモーダル エンコーダーのセットとして使用されます。
続いて、可視スペクトルに関連付けられた特徴空間が BEV に変換されます。
これら 2 つのモダリティの融合は、連結によって促進されます。
同時に、超音波スペクトルベースの単峰性特徴マップは、融合特徴空間内の 2 つのセンサー間のセンサーの位置ずれを軽減するために適用される、コンテンツを認識した拡張畳み込みを通過します。
最後に、融合された特徴は 2 段階のセマンティック占有デコーダによって利用され、正確な障害物認識のためのグリッドごとの予測が生成されます。
私たちは、両方のセンサーのマルチモーダル融合のための最適な戦略を決定するために体系的な調査を実施します。
当社は、データセット作成手順、アノテーション ガイドラインに関する洞察を提供し、すべてのシナリオを適切にカバーするために徹底的なデータ分析を実行します。
私たちのデータセットに適用すると、実験結果は私たちが提案するマルチモーダル融合アプローチの堅牢性と有効性を強調します。
要約(オリジナル)
Accurate obstacle identification represents a fundamental challenge within the scope of near-field perception for autonomous driving. Conventionally, fisheye cameras are frequently employed for comprehensive surround-view perception, including rear-view obstacle localization. However, the performance of such cameras can significantly deteriorate in low-light conditions, during nighttime, or when subjected to intense sun glare. Conversely, cost-effective sensors like ultrasonic sensors remain largely unaffected under these conditions. Therefore, we present, to our knowledge, the first end-to-end multimodal fusion model tailored for efficient obstacle perception in a bird’s-eye-view (BEV) perspective, utilizing fisheye cameras and ultrasonic sensors. Initially, ResNeXt-50 is employed as a set of unimodal encoders to extract features specific to each modality. Subsequently, the feature space associated with the visible spectrum undergoes transformation into BEV. The fusion of these two modalities is facilitated via concatenation. At the same time, the ultrasonic spectrum-based unimodal feature maps pass through content-aware dilated convolution, applied to mitigate the sensor misalignment between two sensors in the fused feature space. Finally, the fused features are utilized by a two-stage semantic occupancy decoder to generate grid-wise predictions for precise obstacle perception. We conduct a systematic investigation to determine the optimal strategy for multimodal fusion of both sensors. We provide insights into our dataset creation procedures, annotation guidelines, and perform a thorough data analysis to ensure adequate coverage of all scenarios. When applied to our dataset, the experimental results underscore the robustness and effectiveness of our proposed multimodal fusion approach.
arxiv情報
| 著者 | Arindam Das,Sudarshan Paul,Niko Scholz,Akhilesh Kumar Malviya,Ganesh Sistu,Ujjwal Bhattacharya,Ciarán Eising |
| 発行日 | 2024-02-01 14:52:16+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google