LiMoE: Mixture of LiDAR Representation Learners from Automotive Scenes

要約

LIDARデータPretrainingは、データ利用を強化するために大規模で容易に利用可能なデータセットを活用するための有望なアプローチを提供します。
ただし、既存の方法は主にスパースボクセル表現に焦点を当て、他のLIDAR表現によって提供される補完的な属性を見落としています。
この作業では、専門家(MOE)のパラダイムの混合をLidarデータ表現に統合するフレームワークであるLimoeを、範囲画像、スパースボクセル、生のポイントなどの複数の表現を相乗的に組み合わせることを提案します。
私たちのアプローチは、次の3つの段階で構成されています。i)画像からライダーへの前orainingは、さまざまな表現にわたって画像からポイントクラウドに事前知識を転送します。
ii)MOEを使用して各表現から関連する属性を適応的にアクティブにし、これらの混合機能を統一された3Dネットワークに蒸留するコントラスト混合学習(CML)。
iii)セマンティック混合監督(SMS)。複数の表現からのセマンティックロジットを組み合わせて、ダウンストリームセグメンテーションパフォーマンスを高めます。
11の大規模なLidarデータセットにわたる広範な実験は、私たちの有効性と優位性を示しています。
コードは公開されています。

要約(オリジナル)

LiDAR data pretraining offers a promising approach to leveraging large-scale, readily available datasets for enhanced data utilization. However, existing methods predominantly focus on sparse voxel representation, overlooking the complementary attributes provided by other LiDAR representations. In this work, we propose LiMoE, a framework that integrates the Mixture of Experts (MoE) paradigm into LiDAR data representation learning to synergistically combine multiple representations, such as range images, sparse voxels, and raw points. Our approach consists of three stages: i) Image-to-LiDAR Pretraining, which transfers prior knowledge from images to point clouds across different representations; ii) Contrastive Mixture Learning (CML), which uses MoE to adaptively activate relevant attributes from each representation and distills these mixed features into a unified 3D network; iii) Semantic Mixture Supervision (SMS), which combines semantic logits from multiple representations to boost downstream segmentation performance. Extensive experiments across eleven large-scale LiDAR datasets demonstrate our effectiveness and superiority. The code has been made publicly accessible.

arxiv情報

著者 Xiang Xu,Lingdong Kong,Hui Shuai,Liang Pan,Ziwei Liu,Qingshan Liu
発行日 2025-03-20 13:53:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク