要約
3Dパノプティックセグメンテーションは、セマンティックセグメンテーションとインスタンスセグメンテーションの両方を必要とする困難な知覚タスクである。このタスクにおいて、画像は豊富なテクスチャ、色、識別情報を提供することができ、LiDARデータを補完してパフォーマンスを向上させることができるが、それらの融合は依然として困難な問題である。この目的のために、我々はLCPSを提案します。LCPSは最初のLiDAR-カメラパノプティックセグメンテーションネットワークです。我々のアプローチでは、LiDARとカメラのフュージョンを3つのステージで行います:1) センサー間の非同期問題によって引き起こされる座標のずれを調整する非同期補正ピクセルアライメント(ACPA)モジュール、2) 1対1の点-画素マッピングを1対多の意味的関係に拡張する意味考慮領域アライメント(SARA)モジュール、3) 点群全体の幾何学的および意味的融合情報の両方を統合する点-ボクセル特徴伝播(PVP)モジュール。我々のフュージョン戦略は、NuScenesデータセットにおいて、LiDARのみのベースラインと比較して約6.9%のPQパフォーマンスを向上させた。定量的かつ定性的な実験により、我々の新しいフレームワークの有効性が実証された。コードはhttps://github.com/zhangzw12319/lcps.git。
要約(オリジナル)
3D panoptic segmentation is a challenging perception task that requires both semantic segmentation and instance segmentation. In this task, we notice that images could provide rich texture, color, and discriminative information, which can complement LiDAR data for evident performance improvement, but their fusion remains a challenging problem. To this end, we propose LCPS, the first LiDAR-Camera Panoptic Segmentation network. In our approach, we conduct LiDAR-Camera fusion in three stages: 1) an Asynchronous Compensation Pixel Alignment (ACPA) module that calibrates the coordinate misalignment caused by asynchronous problems between sensors; 2) a Semantic-Aware Region Alignment (SARA) module that extends the one-to-one point-pixel mapping to one-to-many semantic relations; 3) a Point-to-Voxel feature Propagation (PVP) module that integrates both geometric and semantic fusion information for the entire point cloud. Our fusion strategy improves about 6.9% PQ performance over the LiDAR-only baseline on NuScenes dataset. Extensive quantitative and qualitative experiments further demonstrate the effectiveness of our novel framework. The code will be released at https://github.com/zhangzw12319/lcps.git.
arxiv情報
著者 | Zhiwei Zhang,Zhizhong Zhang,Qian Yu,Ran Yi,Yuan Xie,Lizhuang Ma |
発行日 | 2023-08-03 10:57:58+00:00 |
arxivサイト | arxiv_id(pdf) |