Efficient and Robust 2D-to-BEV Representation Learning via Geometry-guided Kernel Transformer

要約

自律走行において、周囲を撮影したカメラから鳥瞰図表現を学習することは非常に重要である。本研究では、新しい2D-to-BEV表現学習メカニズムであるGeometry-guided Kernel Transformer (GKT)を提案する。GKTは幾何学的事前分布を利用して、識別可能な領域に焦点を当てるように変換器をガイドし、BEV表現を生成するためにカーネル特徴を繰り出す。高速な推論を行うため、さらにルックアップテーブル(LUT)インデキシング法を導入し、実行時にカメラの較正パラメータを取り除く。GKTは3090GPUで$72.3$ FPS / 2080ti GPUで$45.6$ FPSで実行でき、カメラの偏差と事前に定義されたBEVの高さにロバストです。また、GKTはnuScenes val setにおいて、38.0mIoU(0.5m解像度での100m$times$100m知覚範囲)という最先端のリアルタイムセグメンテーション結果を達成している。このように、GKTは効率性、有効性、頑健性から、自動操縦のシナリオ、特にリアルタイムで動作するシステムにおいて、大きな実用的価値を持ちます。コードとモデルは、㊧https://github.com/hustvl/GKT で公開される予定です。

要約(オリジナル)

Learning Bird’s Eye View (BEV) representation from surrounding-view cameras is of great importance for autonomous driving. In this work, we propose a Geometry-guided Kernel Transformer (GKT), a novel 2D-to-BEV representation learning mechanism. GKT leverages the geometric priors to guide the transformer to focus on discriminative regions and unfolds kernel features to generate BEV representation. For fast inference, we further introduce a look-up table (LUT) indexing method to get rid of the camera’s calibrated parameters at runtime. GKT can run at $72.3$ FPS on 3090 GPU / $45.6$ FPS on 2080ti GPU and is robust to the camera deviation and the predefined BEV height. And GKT achieves the state-of-the-art real-time segmentation results, i.e., 38.0 mIoU (100m$\times$100m perception range at a 0.5m resolution) on the nuScenes val set. Given the efficiency, effectiveness, and robustness, GKT has great practical values in autopilot scenarios, especially for real-time running systems. Code and models will be available at \url{https://github.com/hustvl/GKT}.

arxiv情報

著者 Shaoyu Chen,Tianheng Cheng,Xinggang Wang,Wenming Meng,Qian Zhang,Wenyu Liu
発行日 2022-06-09 16:05:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク