LeAP: Consistent multi-domain 3D labeling using Foundation Models

要約

データセットの可用性は、3Dセマンティック理解に関する研究の強力なドライバーであり、ラベルのない3Dポイントクラウドデータを取得することは簡単ですが、このデータをセマンティックラベルで手動で注釈するのは時間がかかり、費用がかかります。
最近、Vision Foundation Models(VFMS)は、カメラ画像のオープンセットセマンティックセグメンテーションを可能にし、自動ラベル付けを支援する可能性があります。
ただし、3DデータのVFMは2Dモデルの適応に限定されており、3Dラベルに矛盾を導入できます。
この作業では、ラベルが任意のPointCloud(LEAP)を導入し、2D VFMを活用して、ラベルの一貫性を確保しながら、あらゆる種類のアプリケーションのクラスのセットで3Dデータを自動的にラベル付けします。
ベイジアンアップデートを使用して、ポイントラベルをボクセルに組み合わせて、時空間の一貫性を改善します。
新しい3D Consipsency Network(3D-CN)は、3D情報を活用して、ラベルの品質をさらに向上させます。
さまざまな実験を通じて、私たちの方法は、手動のラベル付けなしに、多様なフィールド全体で高品質の3Dセマンティックラベルを生成できることを示しています。
さらに、ラベルを使用して新しいドメインに適応したモデルは、セマンティックセグメンテーションタスクの最大34.2 miouの増加を示しています。

要約(オリジナル)

Availability of datasets is a strong driver for research on 3D semantic understanding, and whilst obtaining unlabeled 3D point cloud data is straightforward, manually annotating this data with semantic labels is time-consuming and costly. Recently, Vision Foundation Models (VFMs) enable open-set semantic segmentation on camera images, potentially aiding automatic labeling. However,VFMs for 3D data have been limited to adaptations of 2D models, which can introduce inconsistencies to 3D labels. This work introduces Label Any Pointcloud (LeAP), leveraging 2D VFMs to automatically label 3D data with any set of classes in any kind of application whilst ensuring label consistency. Using a Bayesian update, point labels are combined into voxels to improve spatio-temporal consistency. A novel 3D Consistency Network (3D-CN) exploits 3D information to further improve label quality. Through various experiments, we show that our method can generate high-quality 3D semantic labels across diverse fields without any manual labeling. Further, models adapted to new domains using our labels show up to a 34.2 mIoU increase in semantic segmentation tasks.

arxiv情報

著者 Simon Gebraad,Andras Palffy,Holger Caesar
発行日 2025-02-06 09:24:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク