DeepSTEP — Deep Learning-Based Spatio-Temporal End-To-End Perception for Autonomous Vehicles


タイトル:DeepSTEP – 自律走行車向けの深層学習に基づく時空間エンドツーエンド感知


– 自律走行車は高い精度と頑健性を要求するため、効率的かつスケーラブルな知覚アルゴリズムが必要とされている。
– 本研究では、名前をDeepSTEPとするエンドツーエンドの知覚アーキテクチャのコンセプトを提案している。
– DeepSTEPは、カメラ、LiDAR、およびRaDARなどの生のセンサーデータを処理し、抽出されたデータを深い融合ネットワークで結合することにより、共有された特徴空間を出力する。
– この特徴空間は、オブジェクト検出や地図作成などの知覚タスクを実行するための知覚ヘッドネットワークの入力となる。
– DeepSTEPは、知覚と位置決めを一つのパイプラインに統合することで、効率的な処理を可能にし、全体的なパフォーマンスを改善する最初の設計アプローチの一つである。
– さらに、時間領域を活用するために、重要な特徴にフォーカスする自己注意メカニズムを使用することで、状況に応じて最適な情報を抽出できるようになる。
– DeepSTEPは、自律走行システム用の知覚アルゴリズムの開発を進めるための有望なソリューションであり、実世界での展開に向けた重要な進展を表している。


Autonomous vehicles demand high accuracy and robustness of perception algorithms. To develop efficient and scalable perception algorithms, the maximum information should be extracted from the available sensor data. In this work, we present our concept for an end-to-end perception architecture, named DeepSTEP. The deep learning-based architecture processes raw sensor data from the camera, LiDAR, and RaDAR, and combines the extracted data in a deep fusion network. The output of this deep fusion network is a shared feature space, which is used by perception head networks to fulfill several perception tasks, such as object detection or local mapping. DeepSTEP incorporates multiple ideas to advance state of the art: First, combining detection and localization into a single pipeline allows for efficient processing to reduce computational overhead and further improves overall performance. Second, the architecture leverages the temporal domain by using a self-attention mechanism that focuses on the most important features. We believe that our concept of DeepSTEP will advance the development of end-to-end perception systems. The network will be deployed on our research vehicle, which will be used as a platform for data collection, real-world testing, and validation. In conclusion, DeepSTEP represents a significant advancement in the field of perception for autonomous vehicles. The architecture’s end-to-end design, time-aware attention mechanism, and integration of multiple perception tasks make it a promising solution for real-world deployment. This research is a work in progress and presents the first concept of establishing a novel perception pipeline.


著者 Sebastian Huch,Florian Sauerbeck,Johannes Betz
発行日 2023-05-11 14:13:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.CV パーマリンク