ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal Feature Learning

要約

多くの既存の自動運転パラダイムには、タスクの多段階の個別パイプラインが含まれます。
制御信号をより適切に予測し、ユーザーの安全性を高めるには、共同の時空間特徴学習の恩恵を受けるエンドツーエンドのアプローチが望まれます。
LiDARベースの入力または暗黙の設計に関する先駆的な研究がいくつかありますが、このペーパーでは、解釈可能なビジョンベースの設定で問題を定式化します。
特に、ST-P3と呼ばれる、知覚、予測、および計画タスクを同時に行うためのより代表的な機能のセットに向けた時空間特徴学習スキームを提案します。
具体的には、知覚のための鳥瞰図変換の前に3D空間にジオメトリ情報を保存するために、エゴセントリックに整列した蓄積手法が提案されています。
デュアルパスウェイモデリングは、将来の予測のために過去の動きの変化を考慮に入れるために考案されています。
計画のための視覚ベースの要素の認識を補うために、時間ベースの改良ユニットが導入されています。
私たちの知る限り、私たちは、解釈可能なエンドツーエンドのビジョンベースの自動運転システムの各部分を体系的に調査した最初の企業です。
開ループnuScenesデータセットと閉ループCARLAシミュレーションの両方で、以前の最先端技術に対してアプローチのベンチマークを行います。
結果は、私たちの方法の有効性を示しています。
ソースコード、モデル、プロトコルの詳細は、https://github.com/OpenPerceptionX/ST-P3で公開されています。

要約(オリジナル)

Many existing autonomous driving paradigms involve a multi-stage discrete pipeline of tasks. To better predict the control signals and enhance user safety, an end-to-end approach that benefits from joint spatial-temporal feature learning is desirable. While there are some pioneering works on LiDAR-based input or implicit design, in this paper we formulate the problem in an interpretable vision-based setting. In particular, we propose a spatial-temporal feature learning scheme towards a set of more representative features for perception, prediction and planning tasks simultaneously, which is called ST-P3. Specifically, an egocentric-aligned accumulation technique is proposed to preserve geometry information in 3D space before the bird’s eye view transformation for perception; a dual pathway modeling is devised to take past motion variations into account for future prediction; a temporal-based refinement unit is introduced to compensate for recognizing vision-based elements for planning. To the best of our knowledge, we are the first to systematically investigate each part of an interpretable end-to-end vision-based autonomous driving system. We benchmark our approach against previous state-of-the-arts on both open-loop nuScenes dataset as well as closed-loop CARLA simulation. The results show the effectiveness of our method. Source code, model and protocol details are made publicly available at https://github.com/OpenPerceptionX/ST-P3.

arxiv情報

著者 Shengchao Hu,Li Chen,Penghao Wu,Hongyang Li,Junchi Yan,Dacheng Tao
発行日 2022-07-15 16:57:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク