TBP-Former: Learning Temporal Bird’s-Eye-View Pyramid for Joint Perception and Prediction in Vision-Centric Autonomous Driving

要約

視覚中心の共同認識と予測 (PnP) は、自動運転研究の新たなトレンドとなっています。
生の RGB 画像から周辺環境の交通参加者の将来の状態を予測します。
ただし、避けられない幾何学的歪みのために、複数のカメラビューとタイムスタンプで取得された機能を同期し、それらの時空間機能をさらに活用することは依然として重要な課題です。
この問題に対処するために、ビジョン中心の PnP 用の一時的な鳥瞰ビュー ピラミッド トランスフォーマー (TBP-Former) を提案します。これには 2 つの新しい設計が含まれます。
まず、ポーズ同期 BEV エンコーダーが提案され、生の画像入力をいつでも任意のカメラポーズで共有および同期された BEV 空間にマッピングし、より良い時空間同期を実現します。
次に、時空間ピラミッド トランスフォーマーを導入して、マルチスケール BEV の特徴を包括的に抽出し、時空間事前確率をサポートして将来の BEV 状態を予測します。
nuScenes データセットでの広範な実験により、提案されたフレームワーク全体が、最先端の視覚ベースのすべての予測方法よりも優れていることが示されています。

要約(オリジナル)

Vision-centric joint perception and prediction (PnP) has become an emerging trend in autonomous driving research. It predicts the future states of the traffic participants in the surrounding environment from raw RGB images. However, it is still a critical challenge to synchronize features obtained at multiple camera views and timestamps due to inevitable geometric distortions and further exploit those spatial-temporal features. To address this issue, we propose a temporal bird’s-eye-view pyramid transformer (TBP-Former) for vision-centric PnP, which includes two novel designs. First, a pose-synchronized BEV encoder is proposed to map raw image inputs with any camera pose at any time to a shared and synchronized BEV space for better spatial-temporal synchronization. Second, a spatial-temporal pyramid transformer is introduced to comprehensively extract multi-scale BEV features and predict future BEV states with the support of spatial-temporal priors. Extensive experiments on nuScenes dataset show that our proposed framework overall outperforms all state-of-the-art vision-based prediction methods.

arxiv情報

著者 Shaoheng Fang,Zi Wang,Yiqi Zhong,Junhao Ge,Siheng Chen,Yanfeng Wang
発行日 2023-03-22 13:58:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク