Towards Motion Forecasting with Real-World Perception Inputs: Are End-to-End Approaches Competitive?

要約

動き予測は、自動運転車が周囲のエージェントの将来の軌道を予測できるようにするために重要です。
そのためには、複数ステップのパイプラインで問題のマッピング、検出、追跡、予測を解決する必要があります。
この複雑なシステムでは、従来の予測方法は厳選されたデータを使用して、つまり完全なマップ、検出、追跡を前提として進歩してきました。
ただし、このパラダイムでは、上流モジュールからのエラーは無視されます。
一方、認識と予測のアーキテクチャを共同トレーニングに緊密に統合する、新たなエンドツーエンドのパラダイムがこの問題の解決を約束しています。
しかし、2 つの方法間の評価プロトコルにはこれまでのところ互換性がなく、比較することはできませんでした。
実際、従来の予測方法は通常、実世界のパイプライン (たとえば、上流の検出、追跡、マッピング モジュールを使用) でトレーニングもテストもされていません。
この作業では、予測モデルを現実世界の展開に近づけることを目指しています。
まず、現実世界の知覚入力を使用した予測方法の統合評価パイプラインを提案し、従来の方法とエンドツーエンドの方法を初めて比較できるようにします。
第 2 に、私たちの綿密な調査により、厳選されたデータから知覚ベースのデータに移行する際のパフォーマンスの大幅なギャップが明らかになりました。
特に、このギャップ (1) は、精度の違いだけでなく、知覚モジュールによって提供される不完全な入力の性質からも生じること、および (2) は、知覚出力を単に微調整するだけでは簡単には減少しないことを示します。
広範な実験に基づいて、改善が必要な重要な領域に対する推奨事項と、現実世界におけるより堅牢な動き予測に向けたガイダンスを提供します。
標準化された実用的な条件下でモデルをベンチマークするための評価ライブラリが、\url{https://github.com/valeoai/MFEval} で提供されています。

要約(オリジナル)

Motion forecasting is crucial in enabling autonomous vehicles to anticipate the future trajectories of surrounding agents. To do so, it requires solving mapping, detection, tracking, and then forecasting problems, in a multi-step pipeline. In this complex system, advances in conventional forecasting methods have been made using curated data, i.e., with the assumption of perfect maps, detection, and tracking. This paradigm, however, ignores any errors from upstream modules. Meanwhile, an emerging end-to-end paradigm, that tightly integrates the perception and forecasting architectures into joint training, promises to solve this issue. However, the evaluation protocols between the two methods were so far incompatible and their comparison was not possible. In fact, conventional forecasting methods are usually not trained nor tested in real-world pipelines (e.g., with upstream detection, tracking, and mapping modules). In this work, we aim to bring forecasting models closer to the real-world deployment. First, we propose a unified evaluation pipeline for forecasting methods with real-world perception inputs, allowing us to compare conventional and end-to-end methods for the first time. Second, our in-depth study uncovers a substantial performance gap when transitioning from curated to perception-based data. In particular, we show that this gap (1) stems not only from differences in precision but also from the nature of imperfect inputs provided by perception modules, and that (2) is not trivially reduced by simply finetuning on perception outputs. Based on extensive experiments, we provide recommendations for critical areas that require improvement and guidance towards more robust motion forecasting in the real world. The evaluation library for benchmarking models under standardized and practical conditions is provided: \url{https://github.com/valeoai/MFEval}.

arxiv情報

著者 Yihong Xu,Loïck Chambon,Éloi Zablocki,Mickaël Chen,Alexandre Alahi,Matthieu Cord,Patrick Pérez
発行日 2024-03-05 11:39:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク