要約
ポイントビュー、ボクセルビュー、およびレンジビューは、点群の 3 つの代表的な形式です。
これらはすべて正確な 3D 測定値を持っていますが、色とテクスチャの情報が不足しています。
RGB 画像はこれらの点群ビューを自然に補完するものであり、それらの包括的な情報を十分に活用することで、より堅牢な認識が得られます。
この論文では、RGB 画像と点群の 3 つのビューの情報を活用し、セマンティック セグメンテーションとパノプティック セグメンテーションを同時に実現する、UniSeg と呼ばれる統合マルチモーダル LiDAR セグメンテーション ネットワークを紹介します。
具体的には、まず、ボクセル ビューおよびレンジ ビューの特徴を画像の特徴と自動的に融合する学習可能なクロスモーダル アソシエーション (LMA) モジュールを設計します。これは、画像の豊富な意味情報を完全に活用し、キャリブレーション エラーに対して堅牢です。
次に、強化されたボクセル ビューとレンジ ビューの特徴が点空間に変換され、点群特徴の 3 つのビューが学習可能なクロスビュー アソシエーション モジュール (LVA) によってさらに適応的に融合されます。
特に、UniSeg は 3 つの公開ベンチマーク、つまり SemanticKITTI、nuScenes、Waymo Open Dataset (WOD) で有望な結果を達成しています。
nuScenes の LiDAR セマンティック セグメンテーション チャレンジと SemanticKITTI のパノプティック セグメンテーション チャレンジを含む 2 つのベンチマークの 2 つのチャレンジで 1 位にランクされています。
さらに、最大かつ最も包括的な屋外 LiDAR セグメンテーション コードベースである OpenPCSeg コードベースを構築します。
これには、一般的な屋外 LiDAR セグメンテーション アルゴリズムのほとんどが含まれており、再現可能な実装が提供されます。
OpenPCSeg コードベースは、https://github.com/PJLab-ADG/PCSeg で公開されます。
要約(オリジナル)
Point-, voxel-, and range-views are three representative forms of point clouds. All of them have accurate 3D measurements but lack color and texture information. RGB images are a natural complement to these point cloud views and fully utilizing the comprehensive information of them benefits more robust perceptions. In this paper, we present a unified multi-modal LiDAR segmentation network, termed UniSeg, which leverages the information of RGB images and three views of the point cloud, and accomplishes semantic segmentation and panoptic segmentation simultaneously. Specifically, we first design the Learnable cross-Modal Association (LMA) module to automatically fuse voxel-view and range-view features with image features, which fully utilize the rich semantic information of images and are robust to calibration errors. Then, the enhanced voxel-view and range-view features are transformed to the point space,where three views of point cloud features are further fused adaptively by the Learnable cross-View Association module (LVA). Notably, UniSeg achieves promising results in three public benchmarks, i.e., SemanticKITTI, nuScenes, and Waymo Open Dataset (WOD); it ranks 1st on two challenges of two benchmarks, including the LiDAR semantic segmentation challenge of nuScenes and panoptic segmentation challenges of SemanticKITTI. Besides, we construct the OpenPCSeg codebase, which is the largest and most comprehensive outdoor LiDAR segmentation codebase. It contains most of the popular outdoor LiDAR segmentation algorithms and provides reproducible implementations. The OpenPCSeg codebase will be made publicly available at https://github.com/PJLab-ADG/PCSeg.
arxiv情報
著者 | Youquan Liu,Runnan Chen,Xin Li,Lingdong Kong,Yuchen Yang,Zhaoyang Xia,Yeqi Bai,Xinge Zhu,Yuexin Ma,Yikang Li,Yu Qiao,Yuenan Hou |
発行日 | 2023-09-11 16:00:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google