SkyEye: Self-Supervised Bird’s-Eye-View Semantic Mapping Using Monocular Frontal View Images

要約

鳥瞰図(BEV)セマンティックマップは、意思決定タスクのための豊富な表現を提供するため、自動運転パイプラインの不可欠な構成要素となっている。しかし、既存のBEV意味マップ生成手法は、完全な教師あり学習パラダイムに従っているため、大量の注釈付きBEVデータに依存する。本研究では、この限界に対処するため、前方視(FV)の単眼画像を用いてBEV意味地図を生成する初の自己教師ありアプローチを提案する。また、学習時には、より容易に利用可能な動画像の意味情報を活用することで、BEVの基底真理値注釈の必要性を克服する。このように、我々は、暗黙的監督と明示的監督の2つの自己監督モードに基づいて学習するスカイアイのアーキテクチャを提案する。暗黙的監視は、FVセマンティックシーケンスに基づくシーンの時間的空間的一貫性を強制することによってモデルを学習し、明示的監視は、FVセマンティックアノテーションと自己教師付き深度推定から生成されたBEV疑似ラベルを活用する。KITTI-360データセットを用いた広範な評価により、我々の自己教師付きアプローチは、最新の完全教師付きアプローチと同等の性能を示し、完全教師付きアプローチと比較して、BEVにおいてわずか1%の直接監督で競争力のある結果を達成することが実証されました。最後に、我々のコードと、KITTI-360とWaymoのデータセットから生成したBEVデータセットの両方を一般に公開します。

要約(オリジナル)

Bird’s-Eye-View (BEV) semantic maps have become an essential component of automated driving pipelines due to the rich representation they provide for decision-making tasks. However, existing approaches for generating these maps still follow a fully supervised training paradigm and hence rely on large amounts of annotated BEV data. In this work, we address this limitation by proposing the first self-supervised approach for generating a BEV semantic map using a single monocular image from the frontal view (FV). During training, we overcome the need for BEV ground truth annotations by leveraging the more easily available FV semantic annotations of video sequences. Thus, we propose the SkyEye architecture that learns based on two modes of self-supervision, namely, implicit supervision and explicit supervision. Implicit supervision trains the model by enforcing spatial consistency of the scene over time based on FV semantic sequences, while explicit supervision exploits BEV pseudolabels generated from FV semantic annotations and self-supervised depth estimates. Extensive evaluations on the KITTI-360 dataset demonstrate that our self-supervised approach performs on par with the state-of-the-art fully supervised methods and achieves competitive results using only 1% of direct supervision in the BEV compared to fully supervised approaches. Finally, we publicly release both our code and the BEV datasets generated from the KITTI-360 and Waymo datasets.

arxiv情報

著者 Nikhil Gosala,Kürsat Petek,Paulo L. J. Drews-Jr,Wolfram Burgard,Abhinav Valada
発行日 2023-02-08 18:02:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク