Camera-Only Bird’s Eye View Perception: A Neural Approach to LiDAR-Free Environmental Mapping for Autonomous Vehicles

要約

自律的な車両認識システムは、伝統的に、正確な環境表現を生成するために、費用のかかるLIDARセンサーに依存してきました。
このホワイトペーパーでは、リフトスプラットシュートアーキテクチャを拡張して、バードアイビュー(BEV)マップを生成するカメラのみの認識フレームワークを提案します。
我々の方法では、Yolov11ベースのオブジェクト検出と、マルチカメラ入力全体のDepthanyThingV2単眼深度推定と包括的な360度のシーンの理解を実現します。
OpenLane-V2およびNuscenesデータセットでのアプローチを評価し、Lidar Ground Truthと比較した場合、最大85%の道路セグメンテーション精度と85〜90%の車両検出率を達成し、平均位置誤差は1.2メートルに制限されています。
これらの結果は、カメラ入力のみを使用して豊富な空間情報を抽出する深い学習の可能性を強調し、精度を犠牲にすることなく費用効率の高い自律ナビゲーションを可能にします。

要約(オリジナル)

Autonomous vehicle perception systems have traditionally relied on costly LiDAR sensors to generate precise environmental representations. In this paper, we propose a camera-only perception framework that produces Bird’s Eye View (BEV) maps by extending the Lift-Splat-Shoot architecture. Our method combines YOLOv11-based object detection with DepthAnythingV2 monocular depth estimation across multi-camera inputs to achieve comprehensive 360-degree scene understanding. We evaluate our approach on the OpenLane-V2 and NuScenes datasets, achieving up to 85% road segmentation accuracy and 85-90% vehicle detection rates when compared against LiDAR ground truth, with average positional errors limited to 1.2 meters. These results highlight the potential of deep learning to extract rich spatial information using only camera inputs, enabling cost-efficient autonomous navigation without sacrificing accuracy.

arxiv情報

著者 Anupkumar Bochare
発行日 2025-05-09 15:13:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク