PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images

要約

本論文では、マルチビュー画像からの3D知覚のための統合フレームワークであるPETRv2を提案します。
PETRに基づいて、PETRv2は、前のフレームの時間情報を利用して3Dオブジェクト検出を強化する時間モデリングの有効性を調査します。
より具体的には、時間モデリングのために、PETRの3D位置埋め込み(3D PE)を拡張します。
3D PEは、さまざまなフレームのオブジェクト位置での時間的位置合わせを実現します。
3D PEのデータ適応性を向上させるために、機能ガイド付き位置エンコーダがさらに導入されています。
高品質のBEVセグメンテーションをサポートするために、PETRv2は、セグメンテーションクエリのセットを追加することにより、シンプルでありながら効果的なソリューションを提供します。
各セグメンテーションクエリは、BEVマップの1つの特定のパッチをセグメント化する役割を果たします。
PETRv2は、3Dオブジェクト検出とBEVセグメンテーションで最先端のパフォーマンスを実現します。
詳細なロバスト性分析もPETRフレームワークで実行されます。
PETRv2が3D知覚の強力なベースラインとして役立つことを願っています。
コードは\url{https://github.com/megvii-research/PETR}で入手できます。

要約(オリジナル)

In this paper, we propose PETRv2, a unified framework for 3D perception from multi-view images. Based on PETR, PETRv2 explores the effectiveness of temporal modeling, which utilizes the temporal information of previous frames to boost 3D object detection. More specifically, we extend the 3D position embedding (3D PE) in PETR for temporal modeling. The 3D PE achieves the temporal alignment on object position of different frames. A feature-guided position encoder is further introduced to improve the data adaptability of 3D PE. To support for high-quality BEV segmentation, PETRv2 provides a simply yet effective solution by adding a set of segmentation queries. Each segmentation query is responsible for segmenting one specific patch of BEV map. PETRv2 achieves state-of-the-art performance on 3D object detection and BEV segmentation. Detailed robustness analysis is also conducted on PETR framework. We hope PETRv2 can serve as a strong baseline for 3D perception. Code is available at \url{https://github.com/megvii-research/PETR}.

arxiv情報

著者 Yingfei Liu,Junjie Yan,Fan Jia,Shuailin Li,Qi Gao,Tiancai Wang,Xiangyu Zhang,Jian Sun
発行日 2022-06-10 15:16:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク