Multi-Camera Calibration Free BEV Representation for 3D Object Detection

要約

自動運転の高度なパラダイムでは、周囲のビューから鳥瞰図 (BEV) 表現を学習することは、マルチタスク フレームワークにとって非常に重要です。
ただし、深度推定またはカメラ主導の注意に基づく既存の方法は、主に正確な深度予測とキャリブレーションという 2 つの課題があるため、ノイズの多いカメラ パラメーターの下で変換を取得するには安定していません。
この作業では、堅牢な BEV 表現のための完全なマルチカメラ キャリブレーション フリー トランスフォーマー (CFT) を提示します。これは、カメラの組み込み関数と外部関数に依存せず、暗黙的なマッピングの調査に焦点を当てています。
画像ビューから BEV へのより良い機能学習を導くために、CFT は、設計された位置認識拡張 (PA) を介して、BEV の潜在的な 3D 情報をマイニングします。
カメラ駆動のポイントワイズまたはグローバル変換の代わりに、より効果的な領域内での相互作用と計算コストの削減のために、冗長な計算を削減し、収束を促進するビュー認識アテンションを提案します。
CFT は、nuScenes 検出タスク リーダーボードで 49.7% の NDS を達成しました。これは、カメラ パラメーターを削除した最初の作業であり、他のジオメトリ ガイド方式に匹敵します。
一時的な入力やその他のモーダル情報がなければ、CFT は 1600 * 640 という小さな画像入力で 2 番目に高いパフォーマンスを達成します。view-attention バリアントのおかげで、CFT は通常のアテンションのメモリとトランスフォーマーの FLOP をそれぞれ約 12% と 60% 削減し、改善されました。
NDS 1.0%。
さらに、ノイズの多いカメラ パラメータに対するその自然な堅牢性により、CFT の競争力が高まります。

要約(オリジナル)

In advanced paradigms of autonomous driving, learning Bird’s Eye View (BEV) representation from surrounding views is crucial for multi-task framework. However, existing methods based on depth estimation or camera-driven attention are not stable to obtain transformation under noisy camera parameters, mainly with two challenges, accurate depth prediction and calibration. In this work, we present a completely Multi-Camera Calibration Free Transformer (CFT) for robust BEV representation, which focuses on exploring implicit mapping, not relied on camera intrinsics and extrinsics. To guide better feature learning from image views to BEV, CFT mines potential 3D information in BEV via our designed position-aware enhancement (PA). Instead of camera-driven point-wise or global transformation, for interaction within more effective region and lower computation cost, we propose a view-aware attention which also reduces redundant computation and promotes converge. CFT achieves 49.7% NDS on the nuScenes detection task leaderboard, which is the first work removing camera parameters, comparable to other geometry-guided methods. Without temporal input and other modal information, CFT achieves second highest performance with a smaller image input 1600 * 640. Thanks to view-attention variant, CFT reduces memory and transformer FLOPs for vanilla attention by about 12% and 60%, respectively, with improved NDS by 1.0%. Moreover, its natural robustness to noisy camera parameters makes CFT more competitive.

arxiv情報

著者 Hongxiang Jiang,Wenming Meng,Hongmei Zhu,Qian Zhang,Jihao Yin
発行日 2022-10-31 12:18:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク