PETR: Position Embedding Transformation for Multi-View 3D Object Detection

要約

この論文では、マルチビュー3Dオブジェクト検出のための位置埋め込み変換(PETR)を開発します。
PETRは、3D座標の位置情報を画像の特徴にエンコードし、3Dの位置認識特徴を生成します。
オブジェクトクエリは、3D位置認識機能を認識し、エンドツーエンドのオブジェクト検出を実行できます。
PETRは、標準のnuScenesデータセットで最先端のパフォーマンス(50.4%NDSおよび44.1%mAP)を達成し、ベンチマークで1位にランクされています。
これは、将来の研究のためのシンプルでありながら強力なベースラインとして役立ちます。
コードは\url{https://github.com/megvii-research/PETR}で入手できます。

要約(オリジナル)

In this paper, we develop position embedding transformation (PETR) for multi-view 3D object detection. PETR encodes the position information of 3D coordinates into image features, producing the 3D position-aware features. Object query can perceive the 3D position-aware features and perform end-to-end object detection. PETR achieves state-of-the-art performance (50.4% NDS and 44.1% mAP) on standard nuScenes dataset and ranks 1st place on the benchmark. It can serve as a simple yet strong baseline for future research. Code is available at \url{https://github.com/megvii-research/PETR}.

arxiv情報

著者 Yingfei Liu,Tiancai Wang,Xiangyu Zhang,Jian Sun
発行日 2022-06-15 14:04:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク