PowerBEV: A Powerful Yet Lightweight Framework for Instance Prediction in Bird’s-Eye View

要約

インスタンスを正確に認識し、その将来の動きを予測することは自動運転車にとって重要なタスクであり、複雑な都市交通で安全に移動できるようになります。
鳥瞰図 (BEV) 表現は自動運転の認識では一般的ですが、動き予測設定におけるその可能性はあまり検討されていません。
サラウンドカメラからの BEV インスタンス予測の既存のアプローチは、時空間的に一貫した方法で将来のインスタンスを予測するための複雑な後処理と組み合わせたマルチタスクの自動回帰セットアップに依存しています。
この論文では、このパラダイムから逸脱し、POWERBEV という名前の効率的な新しいエンドツーエンド フレームワークを提案します。このフレームワークは、以前の方法に固有の冗長性を削減することを目的としたいくつかの設計上の選択が異なります。
まず、POWERBEV は、自己回帰的な方法で将来を予測するのではなく、軽量の 2D 畳み込みネットワークから構築された並列マルチスケール モジュールを使用します。
次に、セグメンテーションと求心逆流が予測には十分であることを示し、冗長な出力モダリティを排除することで以前のマルチタスクの目的を簡素化します。
この出力表現に基づいて、時間の経過とともにより安定したインスタンスの関連付けを生成する、シンプルなフロー ワーピング ベースの後処理アプローチを提案します。
この軽量でありながら強力な設計により、POWERBEV は NuScenes データセットの最先端のベースラインを上回り、BEV インスタンス予測の代替パラダイムを提案します。
私たちはコードを https://github.com/EdwardLeeLPZ/PowerBEV で公開しました。

要約(オリジナル)

Accurately perceiving instances and predicting their future motion are key tasks for autonomous vehicles, enabling them to navigate safely in complex urban traffic. While bird’s-eye view (BEV) representations are commonplace in perception for autonomous driving, their potential in a motion prediction setting is less explored. Existing approaches for BEV instance prediction from surround cameras rely on a multi-task auto-regressive setup coupled with complex post-processing to predict future instances in a spatio-temporally consistent manner. In this paper, we depart from this paradigm and propose an efficient novel end-to-end framework named POWERBEV, which differs in several design choices aimed at reducing the inherent redundancy in previous methods. First, rather than predicting the future in an auto-regressive fashion, POWERBEV uses a parallel, multi-scale module built from lightweight 2D convolutional networks. Second, we show that segmentation and centripetal backward flow are sufficient for prediction, simplifying previous multi-task objectives by eliminating redundant output modalities. Building on this output representation, we propose a simple, flow warping-based post-processing approach which produces more stable instance associations across time. Through this lightweight yet powerful design, POWERBEV outperforms state-of-the-art baselines on the NuScenes Dataset and poses an alternative paradigm for BEV instance prediction. We made our code publicly available at: https://github.com/EdwardLeeLPZ/PowerBEV.

arxiv情報

著者 Peizheng Li,Shuxiao Ding,Xieyuanli Chen,Niklas Hanselmann,Marius Cordts,Juergen Gall
発行日 2023-06-19 08:11:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク