要約
セマンティック セグメンテーションは、シーンの理解を実行する効果的な方法です。
最近、3D Bird’s Eye View (BEV) 空間でのセグメンテーションが、ドライブ ポリシーで直接使用されるものとして一般的になってきました。
ただし、商用車で一般的に使用されているサラウンドビュー魚眼カメラ用の BEV セグメンテーションに関する研究は限られています。
このタスクには現実世界の公開データセットがなく、既存の合成データセットはオクルージョンによるアモーダル領域を処理できないため、Cognata シミュレーターを使用して、さまざまな道路タイプ、天候、照明条件を含む合成データセットを作成します。
BEV セグメンテーションを一般化して、どのカメラ モデルでも機能するようにします。
これは、さまざまなカメラを混合する場合に便利です。
魚眼画像に円筒修正を適用し、標準的な LSS ベースの BEV セグメンテーション モデルを使用することにより、ベースラインを実装します。
歪みを解消することなく、より良いパフォーマンスを達成できることを実証します。歪みを解消すると、前処理、視野の減少、再サンプリングによるアーティファクトによる実行時間の増加という悪影響が生じます。
さらに、魚眼カメラにとってより効果的な、歪みを考慮した学習可能な BEV プーリング戦略を導入します。
BEV 空間での推定に重要なオクルージョン推論モジュールを使用してモデルを拡張します。
DaF-BEVSeg の定性的なパフォーマンスは、https://streamable.com/ge4v51 のビデオで紹介されています。
要約(オリジナル)
Semantic segmentation is an effective way to perform scene understanding. Recently, segmentation in 3D Bird’s Eye View (BEV) space has become popular as its directly used by drive policy. However, there is limited work on BEV segmentation for surround-view fisheye cameras, commonly used in commercial vehicles. As this task has no real-world public dataset and existing synthetic datasets do not handle amodal regions due to occlusion, we create a synthetic dataset using the Cognata simulator comprising diverse road types, weather, and lighting conditions. We generalize the BEV segmentation to work with any camera model; this is useful for mixing diverse cameras. We implement a baseline by applying cylindrical rectification on the fisheye images and using a standard LSS-based BEV segmentation model. We demonstrate that we can achieve better performance without undistortion, which has the adverse effects of increased runtime due to pre-processing, reduced field-of-view, and resampling artifacts. Further, we introduce a distortion-aware learnable BEV pooling strategy that is more effective for the fisheye cameras. We extend the model with an occlusion reasoning module, which is critical for estimating in BEV space. Qualitative performance of DaF-BEVSeg is showcased in the video at https://streamable.com/ge4v51.
arxiv情報
著者 | Senthil Yogamani,David Unger,Venkatraman Narayanan,Varun Ravi Kumar |
発行日 | 2024-04-09 14:43:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google