WidthFormer: Toward Efficient Transformer-based BEV View Transformation

要約

この研究では、リアルタイム自動運転アプリケーション向けに調整された新しい変圧器ベースの鳥瞰図 (BEV) 3D 検出手法であるWidthFormer を紹介します。
widthFormer は計算効率が高く、堅牢であり、導入に特別なエンジニアリング作業を必要としません。
この研究では、3D 幾何学情報を正確にカプセル化できる新しい 3D 位置エンコーディング メカニズムを提案します。これにより、モデルは単一のトランス デコーダ層だけで高品質の BEV 表現を生成できます。
このメカニズムは、既存のまばらな 3D オブジェクト検出器にも有益です。
最近提案された研究に触発され、アテンション キーと値として機能するときに画像の特徴を垂直方向に圧縮することで、モデルの効率をさらに向上させます。
また、特徴圧縮による潜在的な情報損失を補う 2 つのモジュールも紹介します。
広く使用されている nuScenes 3D オブジェクト検出ベンチマークの実験評価により、私たちの方法がさまざまな 3D 検出アーキテクチャにわたって以前のアプローチよりも優れていることが実証されました。
さらに重要なのは、私たちのモデルは非常に効率的です。
たとえば、$256\time 704$ の入力イメージを使用すると、NVIDIA 3090 GPU と Horizo​​n Journey-5 エッジ コンピューティング チップでそれぞれ 1.5 ミリ秒と 2.8 ミリ秒の遅延が達成されます。
さらに、WidthFormer は、さまざまな程度のカメラの摂動に対して強力な堅牢性も示します。
私たちの研究は、現実世界の複雑な道路環境における BEV 変換手法の展開に関する貴重な洞察を提供します。
コードは https://github.com/ChenhongyiYang/WidthFormer で入手できます。

要約(オリジナル)

In this work, we present WidthFormer, a novel transformer-based Bird’s-Eye-View (BEV) 3D detection method tailored for real-time autonomous-driving applications. WidthFormer is computationally efficient, robust and does not require any special engineering effort to deploy. In this work, we propose a novel 3D positional encoding mechanism capable of accurately encapsulating 3D geometric information, which enables our model to generate high-quality BEV representations with only a single transformer decoder layer. This mechanism is also beneficial for existing sparse 3D object detectors. Inspired by the recently-proposed works, we further improve our model’s efficiency by vertically compressing the image features when serving as attention keys and values. We also introduce two modules to compensate for potential information loss due to feature compression. Experimental evaluation on the widely-used nuScenes 3D object detection benchmark demonstrates that our method outperforms previous approaches across different 3D detection architectures. More importantly, our model is highly efficient. For example, when using $256\times 704$ input images, it achieves 1.5 ms and 2.8 ms latency on NVIDIA 3090 GPU and Horizon Journey-5 edge computing chips, respectively. Furthermore, WidthFormer also exhibits strong robustness to different degrees of camera perturbations. Our study offers valuable insights into the deployment of BEV transformation methods in real-world, complex road environments. Code is available at https://github.com/ChenhongyiYang/WidthFormer .

arxiv情報

著者 Chenhongyi Yang,Tianwei Lin,Lichao Huang,Elliot J. Crowley
発行日 2024-01-09 14:43:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク