要約
自動運転におけるセマンティック セグメンテーションは、スパース ポイント セグメンテーションから高密度ボクセル セグメンテーションへと進化しています。その目的は、関係する 3D 空間内の各ボクセルのセマンティック占有を予測することです。
予測空間の高密度な性質により、既存の効率的な 2D 投影ベースの方法 (鳥瞰図、距離図など) は 3D シーンの部分空間しか記述できないため、効果がなくなっています。
これに対処するために、点群を効果的かつ包括的に表現するための円筒形の三視点ビューと、点群を効率的に処理するための PointOcc モデルを提案します。
LiDAR 点群の距離分布を考慮して、より近い領域をよりきめ細かくモデリングするために、円筒座標系で 3 透視図を構築します。
空間グループ プーリングを使用して投影中に構造の詳細を維持し、2D バックボーンを採用して各 TPV プレーンを効率的に処理します。
最後に、後処理を必要とせずに、処理された各 TPV 平面上に投影されたフィーチャを集約することで、各ポイントのフィーチャを取得します。
3D 占有予測と LiDAR セグメンテーション ベンチマークの両方に関する広範な実験により、提案された PointOcc がはるかに高速で最先端のパフォーマンスを達成することが実証されました。
具体的には、LiDAR のみを使用しているにもかかわらず、PointOcc は、マルチモーダル手法を含む他のすべての手法を大幅に上回り、OpenOccupancy ベンチマークで大きな差を付けています。
コード: https://github.com/wzzheng/PointOcc。
要約(オリジナル)
Semantic segmentation in autonomous driving has been undergoing an evolution from sparse point segmentation to dense voxel segmentation, where the objective is to predict the semantic occupancy of each voxel in the concerned 3D space. The dense nature of the prediction space has rendered existing efficient 2D-projection-based methods (e.g., bird’s eye view, range view, etc.) ineffective, as they can only describe a subspace of the 3D scene. To address this, we propose a cylindrical tri-perspective view to represent point clouds effectively and comprehensively and a PointOcc model to process them efficiently. Considering the distance distribution of LiDAR point clouds, we construct the tri-perspective view in the cylindrical coordinate system for more fine-grained modeling of nearer areas. We employ spatial group pooling to maintain structural details during projection and adopt 2D backbones to efficiently process each TPV plane. Finally, we obtain the features of each point by aggregating its projected features on each of the processed TPV planes without the need for any post-processing. Extensive experiments on both 3D occupancy prediction and LiDAR segmentation benchmarks demonstrate that the proposed PointOcc achieves state-of-the-art performance with much faster speed. Specifically, despite only using LiDAR, PointOcc significantly outperforms all other methods, including multi-modal methods, with a large margin on the OpenOccupancy benchmark. Code: https://github.com/wzzheng/PointOcc.
arxiv情報
著者 | Sicheng Zuo,Wenzhao Zheng,Yuanhui Huang,Jie Zhou,Jiwen Lu |
発行日 | 2023-08-31 17:57:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google