要約
LiDAR ベースの 3D 認識アルゴリズムは、大規模なデータセットの出現とともに急速に進化しました。
それにもかかわらず、特定のデータセットでトレーニングされたモデルが他のデータセットや異なる LiDAR を使用する現実世界のシナリオに適用されると、多くの場合、大幅なパフォーマンスの低下が発生します。
このペーパーは、さまざまな LiDAR を処理できる統合モデルを開発し、多様な LiDAR データセットにわたる継続的な学習と、異種プラットフォームにわたるシームレスな展開を可能にすることを目的としています。
データセット間のギャップは、主に幾何学的な不一致 (ビームやポイント数の変動など) と意味上の不一致 (分類法の矛盾) として現れることが観察されています。
この目的を達成するために、この論文では、幾何学的再調整とセマンティック ラベル マッピングを活用して、複数のデータセットのトレーニングを容易にし、異種プラットフォームでの展開時のパフォーマンスの低下を軽減する占有予測パイプラインである UniLiDAR を提案します。
さらに、私たちの方法は既存の 3D 知覚モデルと簡単に組み合わせることができます。
LiDAR ドメインのギャップを埋める際の提案されたアプローチの有効性は、OpenOccupancy-nuScenes と SemanticKITTI という 2 つの著名なデータセットに対する包括的な実験によって検証されています。
UniLiDAR は、直接結合されたデータセットでトレーニングされたモデルと比較して、占有予測の mIoU をそれぞれ 15.7% および 12.5% 向上させます。
さらに、個々のデータセットでトレーニングされたいくつかの SOTA メソッドよりも優れたパフォーマンスを発揮します。
私たちの研究により、3D 一般化のさらなる研究が促進されることが期待されており、コードは間もなく利用可能になります。
要約(オリジナル)
LiDAR-based 3D perception algorithms have evolved rapidly alongside the emergence of large datasets. Nonetheless, considerable performance degradation often ensues when models trained on a specific dataset are applied to other datasets or real-world scenarios with different LiDAR. This paper aims to develop a unified model capable of handling different LiDARs, enabling continual learning across diverse LiDAR datasets and seamless deployment across heterogeneous platforms. We observe that the gaps among datasets primarily manifest in geometric disparities (such as variations in beams and point counts) and semantic inconsistencies (taxonomy conflicts). To this end, this paper proposes UniLiDAR, an occupancy prediction pipeline that leverages geometric realignment and semantic label mapping to facilitate multiple datasets training and mitigate performance degradation during deployment on heterogeneous platforms. Moreover, our method can be easily combined with existing 3D perception models. The efficacy of the proposed approach in bridging LiDAR domain gaps is verified by comprehensive experiments on two prominent datasets: OpenOccupancy-nuScenes and SemanticKITTI. UniLiDAR elevates the mIoU of occupancy prediction by 15.7% and 12.5%, respectively, compared to the model trained on the directly merged dataset. Moreover, it outperforms several SOTA methods trained on individual datasets. We expect our research to facilitate further study of 3D generalization, the code will be available soon.
arxiv情報
| 著者 | Zikun Xu,Jianqiang Wang,Shaobing Xu | 
| 発行日 | 2024-03-13 13:23:05+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
