要約
3D シーンの理解は、視覚ベースの自動運転において重要な役割を果たします。
ほとんどの既存の方法は 3D オブジェクトの検出に焦点を当てていますが、任意の形状と無限のクラスの実世界のオブジェクトを記述するのは困難です。
3D シーンのより包括的な認識に向けて、この論文では、マルチカメラ画像で 3D 占有率を予測するための SurroundOcc メソッドを提案します。
最初に各画像のマルチスケール機能を抽出し、空間 2D-3D の注意を採用してそれらを 3D ボリューム空間に持ち上げます。
次に、3D 畳み込みを適用して、ボリューム機能を徐々にアップサンプリングし、複数のレベルで監視を課します。
高密度占有予測を取得するために、拡張占有アノテーションなしで高密度占有グラウンド トゥルースを生成するようにパイプラインを設計します。
具体的には、動的オブジェクトと静的シーンのマルチフレーム LiDAR スキャンを別々に融合します。
次に、ポアソン再構成を採用して穴を埋め、メッシュをボクセル化して高密度の占有ラベルを取得します。
nuScenes と SemanticKITTI データセットに関する広範な実験は、私たちの方法の優位性を示しています。
コードとデータセットは https://github.com/weiyithu/SurroundOcc で入手できます
要約(オリジナル)
3D scene understanding plays a vital role in vision-based autonomous driving. While most existing methods focus on 3D object detection, they have difficulty describing real-world objects of arbitrary shapes and infinite classes. Towards a more comprehensive perception of a 3D scene, in this paper, we propose a SurroundOcc method to predict the 3D occupancy with multi-camera images. We first extract multi-scale features for each image and adopt spatial 2D-3D attention to lift them to the 3D volume space. Then we apply 3D convolutions to progressively upsample the volume features and impose supervision on multiple levels. To obtain dense occupancy prediction, we design a pipeline to generate dense occupancy ground truth without expansive occupancy annotations. Specifically, we fuse multi-frame LiDAR scans of dynamic objects and static scenes separately. Then we adopt Poisson Reconstruction to fill the holes and voxelize the mesh to get dense occupancy labels. Extensive experiments on nuScenes and SemanticKITTI datasets demonstrate the superiority of our method. Code and dataset are available at https://github.com/weiyithu/SurroundOcc
arxiv情報
著者 | Yi Wei,Linqing Zhao,Wenzhao Zheng,Zheng Zhu,Jie Zhou,Jiwen Lu |
発行日 | 2023-03-16 17:59:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google