要約
自動運転 (AD) などの安全性が重要なロボット アプリケーションに堅牢な認識を提供するには、補完的なセンサー モダリティを組み合わせることが重要です。
AD 向けの最近の最先端のカメラとライダーの融合方法は、単眼での深度推定に依存していますが、これは LIDAR からの深度情報を直接使用する場合と比較して、悪名高いタスクです。
ここで、このアプローチでは期待どおりに深度を活用していないことがわかり、単純に深度推定を改善しても物体検出パフォーマンスの向上につながらないことを示します。
驚くべきことに、深度推定を完全に削除しても物体検出パフォーマンスが大幅に低下しないこともわかり、単眼の深度に依存することがカメラとライダーの融合中に不必要なアーキテクチャ上のボトルネックになる可能性があることを示唆しています。
この研究では、単眼による深度推定を完全にバイパスし、代わりに単純なアテンション メカニズムを使用して鳥瞰図グリッド内のカメラと LIDAR の特徴を選択して融合する、新しい融合方法を導入します。
私たちのモデルは、LIDAR 機能の利用可能性に基づいてカメラ機能の使用を調整できること、および単眼の深度推定に依存するベースラインよりも nuScenes データセット上でより優れた 3D オブジェクト検出が得られることを示します。
要約(オリジナル)
Combining complementary sensor modalities is crucial to providing robust perception for safety-critical robotics applications such as autonomous driving (AD). Recent state-of-the-art camera-lidar fusion methods for AD rely on monocular depth estimation which is a notoriously difficult task compared to using depth information from the lidar directly. Here, we find that this approach does not leverage depth as expected and show that naively improving depth estimation does not lead to improvements in object detection performance. Strikingly, we also find that removing depth estimation altogether does not degrade object detection performance substantially, suggesting that relying on monocular depth could be an unnecessary architectural bottleneck during camera-lidar fusion. In this work, we introduce a novel fusion method that bypasses monocular depth estimation altogether and instead selects and fuses camera and lidar features in a bird’s-eye-view grid using a simple attention mechanism. We show that our model can modulate its use of camera features based on the availability of lidar features and that it yields better 3D object detection on the nuScenes dataset than baselines relying on monocular depth estimation.
arxiv情報
著者 | James Gunn,Zygmunt Lenyk,Anuj Sharma,Andrea Donati,Alexandru Buburuzan,John Redford,Romain Mueller |
発行日 | 2024-05-21 16:47:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google