要約
3D 点群は、特に自動運転のコンテキストにおいて、屋外シーンの認識において極めて重要な役割を果たします。
3D LiDAR セグメンテーションの最近の進歩は、多くの場合、正確なセグメンテーションを実現するためのポイントの空間位置決めと分布に重点を置いています。
ただし、これらの方法は、変動する条件では堅牢ですが、座標と点の強度のみに依存するため課題に直面し、不十分な等尺性不変性と次善のセグメンテーションにつながります。
この課題に取り組むために、私たちの研究では Range-Aware Pointwise Distance Distribution (RAPiD) 機能と関連する RAPiD-Seg アーキテクチャを導入しました。
当社の RAPiD 機能は、剛体変換不変性を示し、隣接する構造の局所的な形状を捕捉することに重点を置いた設計で、点密度の変化に効果的に適応します。
これらは、LiDAR 固有の等方性放射とセマンティック分類を利用して、ローカル表現と計算効率を強化するとともに、セマンティック セグメンテーションを向上させるために幾何学的な反射率と表面マテリアルの反射率を統合する 4D 距離メトリックを組み込んでいます。
高次元 RAPiD 特徴を効果的に埋め込むために、高次元特徴を管理可能なボクセル単位の埋め込みにエンコードする新しいクラス認識埋め込み目標を備えた二重ネスト オートエンコーダー構造を提案します。
さらに、チャネルごとのアテンション フュージョンと 2 つの効果的な RAPiD-Seg バリアントを組み込んだ RAPiD-Seg を提案し、パフォーマンスと汎用性の向上のために埋め込みをさらに最適化します。
私たちの手法は、SemanticKITTI (76.1) および nuScenes (83.6) データセットの mIoU の観点から、現代の LiDAR セグメンテーション作業よりも優れたパフォーマンスを発揮します。
要約(オリジナル)
3D point clouds play a pivotal role in outdoor scene perception, especially in the context of autonomous driving. Recent advancements in 3D LiDAR segmentation often focus intensely on the spatial positioning and distribution of points for accurate segmentation. However, these methods, while robust in variable conditions, encounter challenges due to sole reliance on coordinates and point intensity, leading to poor isometric invariance and suboptimal segmentation. To tackle this challenge, our work introduces Range-Aware Pointwise Distance Distribution (RAPiD) features and the associated RAPiD-Seg architecture. Our RAPiD features exhibit rigid transformation invariance and effectively adapt to variations in point density, with a design focus on capturing the localized geometry of neighboring structures. They utilize inherent LiDAR isotropic radiation and semantic categorization for enhanced local representation and computational efficiency, while incorporating a 4D distance metric that integrates geometric and surface material reflectivity for improved semantic segmentation. To effectively embed high-dimensional RAPiD features, we propose a double-nested autoencoder structure with a novel class-aware embedding objective to encode high-dimensional features into manageable voxel-wise embeddings. Additionally, we propose RAPiD-Seg which incorporates a channel-wise attention fusion and two effective RAPiD-Seg variants, further optimizing the embedding for enhanced performance and generalization. Our method outperforms contemporary LiDAR segmentation work in terms of mIoU on SemanticKITTI (76.1) and nuScenes (83.6) datasets.
arxiv情報
著者 | Li Li,Hubert P. H. Shum,Toby P. Breckon |
発行日 | 2024-08-25 17:59:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google