ViP3D: End-to-end Visual Trajectory Prediction via 3D Agent Queries

要約

既存の自動運転パイプラインは、認識モジュールを予測モジュールから分離しています。
2 つのモジュールは、インターフェースとしてエージェント ボックスや軌跡などの厳選された機能を介して通信します。
この分離により、予測モジュールは認識モジュールから部分的な情報しか受け取りません。
さらに悪いことに、認識モジュールからのエラーが伝播して蓄積し、予測結果に悪影響を与える可能性があります。
この作業では、生のビデオからの豊富な情報を活用して、シーン内のエージェントの将来の軌跡を予測する視覚的な軌跡予測パイプラインである ViP3D を提案します。
ViP3D は、パイプライン全体でスパース エージェント クエリを採用しているため、完全に区別可能で解釈可能です。
さらに、この新しいエンドツーエンドの視覚的軌跡予測タスクの評価指標を提案します。
nuScenes データセットに関する広範な実験結果は、ViP3D が従来のパイプラインや以前のエンドツーエンド モデルよりも優れたパフォーマンスを発揮することを示しています。

要約(オリジナル)

Existing autonomous driving pipelines separate the perception module from the prediction module. The two modules communicate via hand-picked features such as agent boxes and trajectories as interfaces. Due to this separation, the prediction module only receives partial information from the perception module. Even worse, errors from the perception modules can propagate and accumulate, adversely affecting the prediction results. In this work, we propose ViP3D, a visual trajectory prediction pipeline that leverages the rich information from raw videos to predict future trajectories of agents in a scene. ViP3D employs sparse agent queries throughout the pipeline, making it fully differentiable and interpretable. Furthermore, we propose an evaluation metric for this novel end-to-end visual trajectory prediction task. Extensive experimental results on the nuScenes dataset show the strong performance of ViP3D over traditional pipelines and previous end-to-end models.

arxiv情報

著者 Junru Gu,Chenxu Hu,Tianyuan Zhang,Xuanyao Chen,Yilun Wang,Yue Wang,Hang Zhao
発行日 2022-08-02 16:38:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク