要約
知覚および予測モジュールは自動運転システムの重要なコンポーネントであり、車両が複雑な環境を安全に移動できるようにします。
認識モジュールは静的および動的オブジェクトを含む環境を認識する責任を負い、予測モジュールはこれらのオブジェクトの将来の動作を予測する責任を負います。
これらのモジュールは通常、オブジェクト検出、オブジェクト追跡、動き予測の 3 つのタスクに分割されます。
従来、これらのタスクは個別に開発および最適化され、出力は次から次へと順番に渡されます。
ただし、このアプローチには重大な制限があります。計算リソースはタスク間で共有されず、共同最適化がないため、エラーがパイプライン全体に伝播するときにエラーが増幅される可能性があり、不確実性がモジュール間で伝播することはほとんどないため、重大な情報損失が発生します。
これらの課題に対処するために、マルチタスク学習を通じて知覚と予測を統一モデルに統合する、知覚と予測の共同パラダイムが登場しました。
この戦略は、以前の方法の限界を克服するだけでなく、3 つのタスクが生のセンサー データに直接アクセスできるようにし、より豊かで微妙な環境の解釈を可能にします。
この論文では、自動運転に関する共同認識と予測に関する初の包括的な調査を紹介します。
私たちは、入力表現、シーンコンテキストモデリング、出力表現に基づいてアプローチを分類し、その貢献と限界を強調する分類法を提案します。
さらに、既存の手法の定性分析と定量的比較を示します。
最後に、最先端技術における特定されたギャップに基づいて、今後の研究の方向性について議論します。
要約(オリジナル)
Perception and prediction modules are critical components of autonomous driving systems, enabling vehicles to navigate safely through complex environments. The perception module is responsible for perceiving the environment, including static and dynamic objects, while the prediction module is responsible for predicting the future behavior of these objects. These modules are typically divided into three tasks: object detection, object tracking, and motion prediction. Traditionally, these tasks are developed and optimized independently, with outputs passed sequentially from one to the next. However, this approach has significant limitations: computational resources are not shared across tasks, the lack of joint optimization can amplify errors as they propagate throughout the pipeline, and uncertainty is rarely propagated between modules, resulting in significant information loss. To address these challenges, the joint perception and prediction paradigm has emerged, integrating perception and prediction into a unified model through multi-task learning. This strategy not only overcomes the limitations of previous methods, but also enables the three tasks to have direct access to raw sensor data, allowing richer and more nuanced environmental interpretations. This paper presents the first comprehensive survey of joint perception and prediction for autonomous driving. We propose a taxonomy that categorizes approaches based on input representation, scene context modeling, and output representation, highlighting their contributions and limitations. Additionally, we present a qualitative analysis and quantitative comparison of existing methods. Finally, we discuss future research directions based on identified gaps in the state-of-the-art.
arxiv情報
著者 | Lucas Dal’Col,Miguel Oliveira,Vítor Santos |
発行日 | 2024-12-18 17:34:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google