Multi-Space Alignments Towards Universal LiDAR Segmentation

要約

安全な自動運転認識には、強力な堅牢性と汎用性を備えた統合された汎用性の高い LiDAR セグメンテーション モデルが望まれます。
この研究では、単一セットのパラメーターを使用して普遍的な方法でマルチタスク、マルチデータセット、マルチモダリティの LiDAR セグメンテーションを実行するためのユニークなフレームワークである M3Net を紹介します。
データ量と多様性をより有効に活用するために、まずさまざまなシーンからさまざまなタイプのセンサーによって取得された大規模な走行データセットを組み合わせ、次にトレーニング中に 3 つの空間、つまりデータ空間、特徴空間、ラベル空間での位置合わせを実行します。
その結果、M3Net は、最先端の LiDAR セグメンテーション モデルをトレーニングするために異種データを飼いならすことができます。
12 個の LiDAR セグメンテーション データセットに関する広範な実験により、その有効性が検証されました。
特に、共有パラメータ セットを使用することで、M3Net は、SemanticKITTI、nuScenes、および Waymo Open の公式ベンチマークで、それぞれ 75.1%、83.1%、および 72.4% の mIoU スコアを達成しました。

要約(オリジナル)

A unified and versatile LiDAR segmentation model with strong robustness and generalizability is desirable for safe autonomous driving perception. This work presents M3Net, a one-of-a-kind framework for fulfilling multi-task, multi-dataset, multi-modality LiDAR segmentation in a universal manner using just a single set of parameters. To better exploit data volume and diversity, we first combine large-scale driving datasets acquired by different types of sensors from diverse scenes and then conduct alignments in three spaces, namely data, feature, and label spaces, during the training. As a result, M3Net is capable of taming heterogeneous data for training state-of-the-art LiDAR segmentation models. Extensive experiments on twelve LiDAR segmentation datasets verify our effectiveness. Notably, using a shared set of parameters, M3Net achieves 75.1%, 83.1%, and 72.4% mIoU scores, respectively, on the official benchmarks of SemanticKITTI, nuScenes, and Waymo Open.

arxiv情報

著者 Youquan Liu,Lingdong Kong,Xiaoyang Wu,Runnan Chen,Xin Li,Liang Pan,Ziwei Liu,Yuexin Ma
発行日 2024-05-02 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク