Vision-Driven 2D Supervised Fine-Tuning Framework for Bird’s Eye View Perception

要約

視覚的鳥瞰図 (BEV) 知覚は、その優れた知覚能力により、特に都市部のインテリジェント運転の領域において、高価な LiDAR ベースの知覚システムに取って代わりつつあります。
ただし、このタイプの認識は依然として LiDAR データに依存してグラウンド トゥルース データベースを構築しており、このプロセスは面倒で時間のかかります。
さらに、ほとんどの量産型自動運転システムにはサラウンド カメラ センサーのみが装備されており、正確な注釈を付けるための LiDAR データがありません。
この課題に取り組むために、我々は、新しいシーンデータにおけるモデルの一般化能力を強化することを目的として、視覚的な2D意味論的知覚に基づくBEV知覚ネットワークの微調整方法を提案します。
2D認識技術の成熟と発展を考慮すると、私たちの方法は高コストのBEVグラウンドトゥルースへの依存を大幅に軽減し、有望な産業応用の見通しを示しています。
nuScenes と Waymo の公開データセットに対して行われた広範な実験と比較分析により、私たちが提案した方法の有効性が実証されました。

要約(オリジナル)

Visual bird’s eye view (BEV) perception, due to its excellent perceptual capabilities, is progressively replacing costly LiDAR-based perception systems, especially in the realm of urban intelligent driving. However, this type of perception still relies on LiDAR data to construct ground truth databases, a process that is both cumbersome and time-consuming. Moreover, most massproduced autonomous driving systems are only equipped with surround camera sensors and lack LiDAR data for precise annotation. To tackle this challenge, we propose a fine-tuning method for BEV perception network based on visual 2D semantic perception, aimed at enhancing the model’s generalization capabilities in new scene data. Considering the maturity and development of 2D perception technologies, our method significantly reduces the dependency on high-cost BEV ground truths and shows promising industrial application prospects. Extensive experiments and comparative analyses conducted on the nuScenes and Waymo public datasets demonstrate the effectiveness of our proposed method.

arxiv情報

著者 Lei He,Qiaoyi Wang,Honglin Sun,Qing Xu,Bolin Gao,Shengbo Eben Li,Jianqiang Wang,Keqiang Li
発行日 2024-09-09 17:40:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク