HV-BEV: Decoupling Horizontal and Vertical Feature Sampling for Multi-View 3D Object Detection

要約

ビジョンベースのマルチビュー環境認識システムの応用は、自動運転技術、特に BEV ベースのモデルでますます認識されています。
現在の最先端のソリューションは主に、明示的または暗黙的な深度予測を通じて各カメラビューからの画像特徴を BEV 空間にエンコードします。
ただし、これらの方法は多くの場合、2D フィーチャを対応する深度領域に投影する精度の向上に重点を置き、現実世界のオブジェクトの高度に構造化された情報や、さまざまなシーンにわたるオブジェクトのさまざまな高さ分布を見落としています。
この研究では、オブジェクトの完全な情報の集約と一般化の両方を改善することを目的として、BEV グリッド クエリ パラダイムにおける特徴サンプリングを水平特徴集約と垂直適応高さ認識基準点サンプリングに分離する新しいアプローチである HV-BEV を提案します。
多様な道路環境に対応します。
具体的には、3D 基準点の地面に沿った水平面内に学習可能なグラフ構造を構築し、特にインスタンスが車両周囲の複数の画像ビューにまたがる場合に、異なる BEV グリッドにわたる同じインスタンスの関連性を強化します。
さらに、固定された高さ範囲内の均一なサンプリングに依存するのではなく、履歴情報を組み込んだ高さ認識モジュールを導入し、さまざまなシーンでオブジェクトが表示されるさまざまな高さに基準点が適応的に焦点を合わせられるようにします。
広範な実験により、提案された手法の有効性が検証され、nuScenes データセット全体でベースラインを上回る優れたパフォーマンスが実証されました。
さらに、当社の最高パフォーマンスのモデルは、nuScenes テスト セットで 50.5% の mAP と 59.8% の NDS という驚くべき結果を達成しました。

要約(オリジナル)

The application of vision-based multi-view environmental perception system has been increasingly recognized in autonomous driving technology, especially the BEV-based models. Current state-of-the-art solutions primarily encode image features from each camera view into the BEV space through explicit or implicit depth prediction. However, these methods often focus on improving the accuracy of projecting 2D features into corresponding depth regions, while overlooking the highly structured information of real-world objects and the varying height distributions of objects across different scenes. In this work, we propose HV-BEV, a novel approach that decouples feature sampling in the BEV grid queries paradigm into horizontal feature aggregation and vertical adaptive height-aware reference point sampling, aiming to improve both the aggregation of objects’ complete information and generalization to diverse road environments. Specifically, we construct a learnable graph structure in the horizontal plane aligned with the ground for 3D reference points, reinforcing the association of the same instance across different BEV grids, especially when the instance spans multiple image views around the vehicle. Additionally, instead of relying on uniform sampling within a fixed height range, we introduce a height-aware module that incorporates historical information, enabling the reference points to adaptively focus on the varying heights at which objects appear in different scenes. Extensive experiments validate the effectiveness of our proposed method, demonstrating its superior performance over the baseline across the nuScenes dataset. Moreover, our best-performing model achieves a remarkable 50.5% mAP and 59.8% NDS on the nuScenes testing set.

arxiv情報

著者 Di Wu,Feng Yang,Benlian Xu,Pan Liao,Wenhui Zhao,Dingwen Zhang
発行日 2024-12-30 13:49:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク