Learning High-resolution Vector Representation from Multi-Camera Images for 3D Object Detection

要約

Bird’s-Eye-View (BEV) 表現は、3D オブジェクト検出パフォーマンスに直接影響を与える重要な要素ですが、従来の BEV グリッド表現では、空間解像度が増加するにつれて 2 次の計算コストが発生します。
この制限に対処するために、高解像度ベクトル表現を備えた新しいカメラベースの 3D オブジェクト検出器、VectorFormer を紹介します。
提示された高解像度ベクトル表現は、ベクトル散乱と収集という 2 つの新しいモジュールを通じて、高解像度でマルチカメラ画像から 3D ジオメトリを効率的に利用するために、低解像度の BEV 表現と結合されます。
この目的を達成するために、より豊富なシーン コンテキストを含む学習されたベクトル表現は、最終予測のデコード クエリとして機能できます。
私たちは nuScenes データセットで広範な実験を実施し、NDS と推論時間における最先端のパフォーマンスを実証します。
さらに、提案したベクトル表現を組み込んだクエリ BEV ベースの手法を調査し、一貫したパフォーマンスの向上を観察しました。

要約(オリジナル)

The Bird’s-Eye-View (BEV) representation is a critical factor that directly impacts the 3D object detection performance, but the traditional BEV grid representation induces quadratic computational cost as the spatial resolution grows. To address this limitation, we present a new camera-based 3D object detector with high-resolution vector representation: VectorFormer. The presented high-resolution vector representation is combined with the lower-resolution BEV representation to efficiently exploit 3D geometry from multi-camera images at a high resolution through our two novel modules: vector scattering and gathering. To this end, the learned vector representation with richer scene contexts can serve as the decoding query for final predictions. We conduct extensive experiments on the nuScenes dataset and demonstrate state-of-the-art performance in NDS and inference time. Furthermore, we investigate query-BEV-based methods incorporated with our proposed vector representation and observe a consistent performance improvement.

arxiv情報

著者 Zhili Chen,Shuangjie Xu,Maosheng Ye,Zian Qian,Xiaoyi Zou,Dit-Yan Yeung,Qifeng Chen
発行日 2024-07-22 03:51:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク