Multi-View Attentive Contextualization for Multi-View 3D Object Detection

要約

クエリベースのマルチビュー 3D (MV3D) オブジェクト検出における 2D から 3D への特徴リフティングを改善するためのシンプルかつ効果的な方法である Multi-View Attentive Contextualization (MvACon) を紹介します。
クエリベースの MV3D オブジェクト検出の分野で目覚ましい進歩が見られたにもかかわらず、従来技術では、計算コストが高いために、高密度の注意ベースのリフティングで高解像度の 2D 特徴を活用できなかったり、3D の密度が不十分であったりすることがよくありました。
スパースな注意ベースのリフティングにおけるマルチスケール 2D フィーチャへのクエリ。
私たちが提案する MvACon は、特定の 2D から 3D の特徴リフティング アプローチに依存しない、表現的には高密度でありながら計算的には疎な、注意深い特徴コンテキスト化スキームを使用して一石二鳥を実現します。
実験では、提案された MvACon が、BEVFormer とその最新の 3D deformable Attendee (DFA3D) バリアント、および PETR の両方を使用して、nuScenes ベンチマークで徹底的にテストされ、特に位置、方向、
そして速度予測。
また、BEVFormer を使用して Waymo-mini ベンチマークでもテストされ、同様の改善が見られます。
我々は、グローバルなクラスターベースのコンテキストが、MV3D オブジェクト検出用の高密度のシーンレベルのコンテキストを効果的にエンコードしていることを定性的および定量的に示します。
私たちが提案した MvACon の有望な結果は、コンピューター ビジョンにおける格言「(コンテキスト化された) 機能が重要である」を裏付けるものです。

要約(オリジナル)

We present Multi-View Attentive Contextualization (MvACon), a simple yet effective method for improving 2D-to-3D feature lifting in query-based multi-view 3D (MV3D) object detection. Despite remarkable progress witnessed in the field of query-based MV3D object detection, prior art often suffers from either the lack of exploiting high-resolution 2D features in dense attention-based lifting, due to high computational costs, or from insufficiently dense grounding of 3D queries to multi-scale 2D features in sparse attention-based lifting. Our proposed MvACon hits the two birds with one stone using a representationally dense yet computationally sparse attentive feature contextualization scheme that is agnostic to specific 2D-to-3D feature lifting approaches. In experiments, the proposed MvACon is thoroughly tested on the nuScenes benchmark, using both the BEVFormer and its recent 3D deformable attention (DFA3D) variant, as well as the PETR, showing consistent detection performance improvement, especially in enhancing performance in location, orientation, and velocity prediction. It is also tested on the Waymo-mini benchmark using BEVFormer with similar improvement. We qualitatively and quantitatively show that global cluster-based contexts effectively encode dense scene-level contexts for MV3D object detection. The promising results of our proposed MvACon reinforces the adage in computer vision — “(contextualized) feature matters’.

arxiv情報

著者 Xianpeng Liu,Ce Zheng,Ming Qian,Nan Xue,Chen Chen,Zhebin Zhang,Chen Li,Tianfu Wu
発行日 2024-05-20 17:37:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク