Improving Bird’s Eye View Semantic Segmentation by Task Decomposition

要約

鳥瞰図 (BEV) におけるセマンティック セグメンテーションは、自動運転において重要な役割を果たします。
従来の方法は通常、エンドツーエンドのパイプラインに従い、単眼 RGB 入力から BEV セグメンテーション マップを直接予測します。
ただし、RGB 入力と BEV が異なる視点からターゲットになる場合に課題が発生し、直接のポイントツーポイント予測の最適化が困難になります。
この論文では、元の BEV セグメンテーション タスクを 2 つの段階、つまり BEV マップの再構成と RGB-BEV 特徴の位置合わせに分解します。
第 1 段階では、BEV オートエンコーダをトレーニングして、破損したノイズの多い潜在表現を考慮して BEV セグメンテーション マップを再構築します。これにより、デコーダは典型的な BEV パターンの基本的な知識を学習するように促されます。
第 2 段階では、RGB 入力画像を第 1 段階の BEV 潜在空間にマッピングし、2 つのビュー間の相関を特徴レベルで直接最適化します。
私たちのアプローチは、知覚と生成を個別のステップに組み合わせる複雑さを簡素化し、複雑で困難なシーンを効果的に処理するモデルを装備します。
さらに、BEV セグメンテーション マップをデカルト座標系から極座標系に変換して、RGB 画像と BEV マップ間の列方向の対応関係を確立することを提案します。
さらに、私たちの方法は、深度推定にマルチスケール機能もカメラ固有パラメーターも必要とせず、計算オーバーヘッドを節約します。
nuScenes と Argoverse に関する広範な実験により、私たちの手法の有効性と効率性が示されています。
コードは https://github.com/happytianhao/TaDe で入手できます。

要約(オリジナル)

Semantic segmentation in bird’s eye view (BEV) plays a crucial role in autonomous driving. Previous methods usually follow an end-to-end pipeline, directly predicting the BEV segmentation map from monocular RGB inputs. However, the challenge arises when the RGB inputs and BEV targets from distinct perspectives, making the direct point-to-point predicting hard to optimize. In this paper, we decompose the original BEV segmentation task into two stages, namely BEV map reconstruction and RGB-BEV feature alignment. In the first stage, we train a BEV autoencoder to reconstruct the BEV segmentation maps given corrupted noisy latent representation, which urges the decoder to learn fundamental knowledge of typical BEV patterns. The second stage involves mapping RGB input images into the BEV latent space of the first stage, directly optimizing the correlations between the two views at the feature level. Our approach simplifies the complexity of combining perception and generation into distinct steps, equipping the model to handle intricate and challenging scenes effectively. Besides, we propose to transform the BEV segmentation map from the Cartesian to the polar coordinate system to establish the column-wise correspondence between RGB images and BEV maps. Moreover, our method requires neither multi-scale features nor camera intrinsic parameters for depth estimation and saves computational overhead. Extensive experiments on nuScenes and Argoverse show the effectiveness and efficiency of our method. Code is available at https://github.com/happytianhao/TaDe.

arxiv情報

著者 Tianhao Zhao,Yongcan Chen,Yu Wu,Tianyang Liu,Bo Du,Peilun Xiao,Shi Qiu,Hongda Yang,Guozhen Li,Yi Yang,Yutian Lin
発行日 2024-04-02 13:19:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク