要約
既存の自動運転システムでは、認識と予測は 2 つの別個のモジュールです。
これらは、エージェントの境界ボックスや軌跡などの厳選された機能を介して相互に作用します。
この分離により、下流モジュールとしての予測は、認識モジュールから限られた情報のみを受け取ります。
さらに悪いことに、認識モジュールからのエラーが伝播および蓄積し、予測結果に悪影響を与える可能性があります。
この研究では、生のビデオからの豊富な情報を活用してシーン内のエージェントの将来の軌跡を直接予測する、クエリベースの視覚軌跡予測パイプラインである ViP3D を提案します。
ViP3D は、パイプライン全体で検出、追跡、予測するためにスパース エージェント クエリを採用しており、完全に微分可能なビジョンベースの軌道予測アプローチとしては初めてのものです。
過去の特徴マップと軌跡を使用する代わりに、以前のタイムスタンプからの有用な情報がエージェント クエリにエンコードされるため、ViP3D は簡潔なストリーミング予測方法になります。
さらに、nuScenes データセットに関する広範な実験結果は、従来のパイプラインや以前のエンドツーエンド モデルと比較して、ViP3D の強力なビジョンベースの予測パフォーマンスを示しています。
要約(オリジナル)
Perception and prediction are two separate modules in the existing autonomous driving systems. They interact with each other via hand-picked features such as agent bounding boxes and trajectories. Due to this separation, prediction, as a downstream module, only receives limited information from the perception module. To make matters worse, errors from the perception modules can propagate and accumulate, adversely affecting the prediction results. In this work, we propose ViP3D, a query-based visual trajectory prediction pipeline that exploits rich information from raw videos to directly predict future trajectories of agents in a scene. ViP3D employs sparse agent queries to detect, track, and predict throughout the pipeline, making it the first fully differentiable vision-based trajectory prediction approach. Instead of using historical feature maps and trajectories, useful information from previous timestamps is encoded in agent queries, which makes ViP3D a concise streaming prediction method. Furthermore, extensive experimental results on the nuScenes dataset show the strong vision-based prediction performance of ViP3D over traditional pipelines and previous end-to-end models.
arxiv情報
著者 | Junru Gu,Chenxu Hu,Tianyuan Zhang,Xuanyao Chen,Yilun Wang,Yue Wang,Hang Zhao |
発行日 | 2023-06-19 11:50:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google