要約
同期された画像と点群を使用して 3D 表現を学習するために一般的に使用される、対照的な画像から LiDAR への知識の伝達は、多くの場合、自己矛盾のジレンマに直面します。
この問題は、コントラスト損失により、意味ラベルを共有する一致しないポイントとピクセルの特徴が意図せず分離され、学習された表現の整合性が損なわれるために発生します。
これを克服するために、ピクセルレベルのセマンティクスの取得に革命をもたらした Visual Foundation Models (VFM) を利用して、3D 表現の学習を強化します。
具体的には、既製の VFM を利用して、弱く監視されたピクセルからポイントへの対比蒸留のためのセマンティック ラベルを生成します。
さらに、フォン ミーゼス フィッシャー分布を使用して特徴空間を構造化し、同じクラス内のセマンティック埋め込みがさまざまな入力にわたって一貫性を保つようにします。
さらに、ポイントのサンプリング確率を調整して空間分布とカテゴリ頻度の不均衡に対処し、包括的でバランスの取れた学習を促進します。
広範な実験により、私たちのアプローチが従来の方法によってもたらされる課題を軽減し、下流のタスクにおいて既存の画像からLiDARへの対比蒸留方法を常に上回っていることが実証されています。
ソース コードは https://github.com/Eaphan/OLIVINE で入手できます。
要約(オリジナル)
Contrastive image-to-LiDAR knowledge transfer, commonly used for learning 3D representations with synchronized images and point clouds, often faces a self-conflict dilemma. This issue arises as contrastive losses unintentionally dissociate features of unmatched points and pixels that share semantic labels, compromising the integrity of learned representations. To overcome this, we harness Visual Foundation Models (VFMs), which have revolutionized the acquisition of pixel-level semantics, to enhance 3D representation learning. Specifically, we utilize off-the-shelf VFMs to generate semantic labels for weakly-supervised pixel-to-point contrastive distillation. Additionally, we employ von Mises-Fisher distributions to structure the feature space, ensuring semantic embeddings within the same class remain consistent across varying inputs. Furthermore, we adapt sampling probabilities of points to address imbalances in spatial distribution and category frequency, promoting comprehensive and balanced learning. Extensive experiments demonstrate that our approach mitigates the challenges posed by traditional methods and consistently surpasses existing image-to-LiDAR contrastive distillation methods in downstream tasks. The source code is available at https://github.com/Eaphan/OLIVINE.
arxiv情報
著者 | Yifan Zhang,Junhui Hou |
発行日 | 2025-01-02 13:30:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google