要約
LiDAR データの事前トレーニングは、大規模ですぐに利用できるデータセットを活用してデータ活用を強化する有望なアプローチを提供します。
ただし、既存の方法は主にスパースボクセル表現に焦点を当てており、他の LiDAR 表現によって提供される補完的な属性を見落としています。
この研究では、Mixture of Experts (MoE) パラダイムを LiDAR データ表現学習に統合し、距離画像、スパース ボクセル、生のポイントなどの複数の表現を相乗的に組み合わせるフレームワークである LiMoE を提案します。
私たちのアプローチは 3 つの段階で構成されます。 i) 画像から LiDAR への事前トレーニング。事前の知識を画像からさまざまな表現にわたる点群に転送します。
ii) 対照混合学習 (CML)。MoE を使用して各表現から関連する属性を適応的にアクティブ化し、これらの混合特徴を統合 3D ネットワークに抽出します。
iii) セマンティック混合監視 (SMS)。複数の表現からのセマンティック ロジットを組み合わせて、下流のセグメンテーションのパフォーマンスを向上させます。
11 の大規模な LiDAR データセットにわたる広範な実験により、当社の有効性と優位性が実証されました。
コードとモデルのチェックポイントは一般に公開されています。
要約(オリジナル)
LiDAR data pretraining offers a promising approach to leveraging large-scale, readily available datasets for enhanced data utilization. However, existing methods predominantly focus on sparse voxel representation, overlooking the complementary attributes provided by other LiDAR representations. In this work, we propose LiMoE, a framework that integrates the Mixture of Experts (MoE) paradigm into LiDAR data representation learning to synergistically combine multiple representations, such as range images, sparse voxels, and raw points. Our approach consists of three stages: i) Image-to-LiDAR Pretraining, which transfers prior knowledge from images to point clouds across different representations; ii) Contrastive Mixture Learning (CML), which uses MoE to adaptively activate relevant attributes from each representation and distills these mixed features into a unified 3D network; iii) Semantic Mixture Supervision (SMS), which combines semantic logits from multiple representations to boost downstream segmentation performance. Extensive experiments across 11 large-scale LiDAR datasets demonstrate our effectiveness and superiority. The code and model checkpoints have been made publicly accessible.
arxiv情報
著者 | Xiang Xu,Lingdong Kong,Hui Shuai,Liang Pan,Ziwei Liu,Qingshan Liu |
発行日 | 2025-01-07 18:59:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google