Semi-Supervised Learning for Visual Bird’s Eye View Semantic Segmentation

要約

視覚的鳥瞰図 (BEV) セマンティック セグメンテーションは、自動運転車が静的要素 (道路など) や動的要素 (車両、歩行者など) を含む周囲の環境を画像のみから理解できるようにします。
ただし、完全教師あり手法のアノテーション手順のコストが高いため、視覚的な BEV セマンティック セグメンテーションの機能が制限されます。通常、これには HD マップ、3D オブジェクト境界ボックス、およびカメラの外部行列が必要です。
この論文では、トレーニング中にラベルのない画像を活用することでパフォーマンスを向上させる、視覚的な BEV セマンティック セグメンテーションのための新しい半教師ありフレームワークを紹介します。
次に、ラベルなしデータを最大限に活用する一貫性損失が提案され、意味論的予測だけでなく BEV 機能についてもモデルを制約します。
さらに、我々は、フロントビュー画像とBEVセマンティックセグメンテーションの間の幾何学的関係を維持しながら、データセットを合理的に拡張するコンジョイント回転と呼ばれる、新規で効果的なデータ拡張方法を提案します。
nuScenes と Argoverse データセットに関する広範な実験により、半教師ありフレームワークが予測精度を効果的に向上できることが示されました。
私たちの知る限り、これはラベルのないデータを使用して視覚的な BEV セマンティック セグメンテーションのパフォーマンスの向上を検討した最初の研究です。
コードは公開されます。

要約(オリジナル)

Visual bird’s eye view (BEV) semantic segmentation helps autonomous vehicles understand the surrounding environment only from images, including static elements (e.g., roads) and dynamic elements (e.g., vehicles, pedestrians). However, the high cost of annotation procedures of full-supervised methods limits the capability of the visual BEV semantic segmentation, which usually needs HD maps, 3D object bounding boxes, and camera extrinsic matrixes. In this paper, we present a novel semi-supervised framework for visual BEV semantic segmentation to boost performance by exploiting unlabeled images during the training. A consistency loss that makes full use of unlabeled data is then proposed to constrain the model on not only semantic prediction but also the BEV feature. Furthermore, we propose a novel and effective data augmentation method named conjoint rotation which reasonably augments the dataset while maintaining the geometric relationship between the front-view images and the BEV semantic segmentation. Extensive experiments on the nuScenes and Argoverse datasets show that our semi-supervised framework can effectively improve prediction accuracy. To the best of our knowledge, this is the first work that explores improving visual BEV semantic segmentation performance using unlabeled data. The code will be publicly available.

arxiv情報

著者 Junyu Zhu,Lina Liu,Yu Tang,Feng Wen,Wanlong Li,Yong Liu
発行日 2023-08-28 12:23:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク