HV-BEV: Decoupling Horizontal and Vertical Feature Sampling for Multi-View 3D Object Detection

要約

ビジョンベースのマルチビュー環境認識システムの適用は、自律運転技術、特にBEVベースのモデルでますます認識されています。
現在の最先端のソリューションは、明示的または暗黙的な深さ予測を通じて、各カメラビューからBEV空間に画像機能を主にエンコードします。
ただし、これらの方法は、3D空間のオブジェクトのさまざまな部分間の構造化された相関関係と、異なるカテゴリのオブジェクトがしばしば異なる局所高範囲を占めるという事実を見落としていることがよくあります。
たとえば、トラックはより高い標高で現れますが、交通コーンは地面の近くにあります。
この作業では、\ textbf {bev}グリッドクエリの特徴サンプリングを\ textbf {h} orizo​​ntal feature Aggationと\ textbf {v} eartical Adaptive Height-Aware Reference Point Point Sampling(HV-BEV)、アグリレージの両方のオブジェクトのオブジェクトの両方のオブジェクトを改善することを目的としています。
分布。
具体的には、関連する隣接点のセットは、地上整列された水平面上の各3D基準点に対して動的に構築され、特にインスタンスが車両の周りの複数の画像ビューにまたがる場合、異なるBEVグリッドにまたがる同じインスタンスの関連性を高めます。
さらに、固定された高さの範囲内で均一なサンプリングに依存する代わりに、履歴情報を組み込んだ高さの認識モジュールを導入し、参照ポイントが異なるシーンでオブジェクトが表示されるさまざまな高さに適応的に焦点を合わせることができます。
広範な実験では、提案された方法の有効性を検証し、ヌスセンデータセット全体のベースラインよりも優れた性能を示します。
さらに、当社の最高のパフォーマンスモデルは、Nuscenesテストセットで顕著な50.5 \%マップと59.8 \%NDSを実現します。
このコードは、https://github.com/uddd821/hv-bevで入手できます。

要約(オリジナル)

The application of vision-based multi-view environmental perception system has been increasingly recognized in autonomous driving technology, especially the BEV-based models. Current state-of-the-art solutions primarily encode image features from each camera view into the BEV space through explicit or implicit depth prediction. However, these methods often overlook the structured correlations among different parts of objects in 3D space and the fact that different categories of objects often occupy distinct local height ranges. For example, trucks appear at higher elevations, whereas traffic cones are near the ground. In this work, we propose a novel approach that decouples feature sampling in the \textbf{BEV} grid queries paradigm into \textbf{H}orizontal feature aggregation and \textbf{V}ertical adaptive height-aware reference point sampling (HV-BEV), aiming to improve both the aggregation of objects’ complete information and awareness of diverse objects’ height distribution. Specifically, a set of relevant neighboring points is dynamically constructed for each 3D reference point on the ground-aligned horizontal plane, enhancing the association of the same instance across different BEV grids, especially when the instance spans multiple image views around the vehicle. Additionally, instead of relying on uniform sampling within a fixed height range, we introduce a height-aware module that incorporates historical information, enabling the reference points to adaptively focus on the varying heights at which objects appear in different scenes. Extensive experiments validate the effectiveness of our proposed method, demonstrating its superior performance over the baseline across the nuScenes dataset. Moreover, our best-performing model achieves a remarkable 50.5\% mAP and 59.8\% NDS on the nuScenes testing set. The code is available at https://github.com/Uddd821/HV-BEV.

arxiv情報

著者 Di Wu,Feng Yang,Benlian Xu,Pan Liao,Wenhui Zhao,Dingwen Zhang
発行日 2025-05-21 13:35:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク