LWSIS: LiDAR-guided Weakly Supervised Instance Segmentation for Autonomous Driving

要約

画像インスタンスのセグメンテーションは、自動運転の基本的な研究トピックであり、シーンの理解と交通安全にとって重要です。
高度な学習ベースのアプローチは、多くの場合、トレーニングのためにコストのかかる 2D マスク アノテーションに依存しています。
このホワイト ペーパーでは、より巧妙なフレームワークである LiDAR ガイド付きの弱い監視対象インスタンス セグメンテーション (LWSIS) を紹介します。これは、トレーニング用の自然な弱い監視として、既製の 3D データ、つまりポイント クラウドを 3D ボックスと共に活用します。
2D イメージ インスタンス セグメンテーション モデル。
当社の LWSIS は、トレーニング中にマルチモーダル データの補完的な情報を活用するだけでなく、高密度の 2D マスクの注釈コストを大幅に削減します。
詳細には、LWSIS は、Point Label Assignment (PLA) と Graph-based Consistency Regularization (GCR) という 2 つの重要なモジュールで構成されています。
前者のモジュールは、3D ポイント クラウドを 2D の点ごとのラベルとして自動的に割り当てることを目的としていますが、後者は、マルチモーダル データのジオメトリと外観の一貫性を強制することで、予測をさらに洗練させます。
さらに、nuInsSeg という名前の nuScenes でセカンダリ インスタンス セグメンテーション アノテーションを実行して、マルチモーダルな知覚タスクに関するさらなる研究を促進します。
nuInsSeg と大規模な Waymo での広範な実験では、LWSIS がトレーニング中に 3D データのみを使用することで、既存の弱く監視されたセグメンテーション モデルを大幅に改善できることが示されています。
さらに、LWSIS を PointPainting などの 3D オブジェクト検出器に組み込んで、無料で 3D 検出パフォーマンスを向上させることもできます。
コードとデータセットは https://github.com/Serenos/LWSIS で入手できます。

要約(オリジナル)

Image instance segmentation is a fundamental research topic in autonomous driving, which is crucial for scene understanding and road safety. Advanced learning-based approaches often rely on the costly 2D mask annotations for training. In this paper, we present a more artful framework, LiDAR-guided Weakly Supervised Instance Segmentation (LWSIS), which leverages the off-the-shelf 3D data, i.e., Point Cloud, together with the 3D boxes, as natural weak supervisions for training the 2D image instance segmentation models. Our LWSIS not only exploits the complementary information in multimodal data during training, but also significantly reduces the annotation cost of the dense 2D masks. In detail, LWSIS consists of two crucial modules, Point Label Assignment (PLA) and Graph-based Consistency Regularization (GCR). The former module aims to automatically assign the 3D point cloud as 2D point-wise labels, while the latter further refines the predictions by enforcing geometry and appearance consistency of the multimodal data. Moreover, we conduct a secondary instance segmentation annotation on the nuScenes, named nuInsSeg, to encourage further research on multimodal perception tasks. Extensive experiments on the nuInsSeg, as well as the large-scale Waymo, show that LWSIS can substantially improve existing weakly supervised segmentation models by only involving 3D data during training. Additionally, LWSIS can also be incorporated into 3D object detectors like PointPainting to boost the 3D detection performance for free. The code and dataset are available at https://github.com/Serenos/LWSIS.

arxiv情報

著者 Xiang Li,Junbo Yin,Botian Shi,Yikang Li,Ruigang Yang,Jianbing Shen
発行日 2023-01-19 08:41:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク