要約
3Dセマンティック占有予測モデルの開発は、多くの場合、教師あり学習のための高密度な3Dアノテーションに依存しており、そのプロセスは労力とリソースを必要とする。これを解決するために、我々はMinkOccを紹介する。MinkOccは、カメラとLiDARのためのマルチモーダル3Dセマンティック占有予測フレームワークであり、2段階の半教師付き学習手順を提案する。ここで、明示的に3Dアノテーションの小さなデータセットが学習プロセスをウォームスタートさせ、次に、より単純なアノテーションが蓄積されたLiDARの掃引と画像(ビジョンの基礎モデルを通して意味的にラベリングされた)によって監視が継続される。MinkOccは、これらのセンサリッチな監視キューを効果的に利用し、競争力のある精度を維持しながら、手動ラベリングへの依存を90%削減する。さらに、提案モデルは、早期フュージョンによりLiDARとカメラデータからの情報を組み込み、リアルタイム予測のためにスパース畳み込みネットワークを活用する。監視と計算の両方において効率的であることから、我々はMinkOccをキュレーションされたデータセット以外にも拡張し、自律走行における3D意味的占有予測の幅広い実世界展開を可能にすることを目指している。
要約(オリジナル)
Developing 3D semantic occupancy prediction models often relies on dense 3D annotations for supervised learning, a process that is both labor and resource-intensive, underscoring the need for label-efficient or even label-free approaches. To address this, we introduce MinkOcc, a multi-modal 3D semantic occupancy prediction framework for cameras and LiDARs that proposes a two-step semi-supervised training procedure. Here, a small dataset of explicitly 3D annotations warm-starts the training process; then, the supervision is continued by simpler-to-annotate accumulated LiDAR sweeps and images — semantically labelled through vision foundational models. MinkOcc effectively utilizes these sensor-rich supervisory cues and reduces reliance on manual labeling by 90\% while maintaining competitive accuracy. In addition, the proposed model incorporates information from LiDAR and camera data through early fusion and leverages sparse convolution networks for real-time prediction. With its efficiency in both supervision and computation, we aim to extend MinkOcc beyond curated datasets, enabling broader real-world deployment of 3D semantic occupancy prediction in autonomous driving.
arxiv情報
| 著者 | Samuel Sze,Daniele De Martini,Lars Kunze |
| 発行日 | 2025-04-03 04:31:56+00:00 |
| arxivサイト | arxiv_id(pdf) |