3D Open-Vocabulary Panoptic Segmentation with 2D-3D Vision-Language Distillation

要約

3Dパノプティックセグメンテーションは、シーン内の3D点に対する意味的注釈とインスタンス注釈の両方を予測することを目的とした、困難な知覚タスクである。先行する3D汎視セグメンテーションアプローチは、クローズドセットのベンチマークにおいて優れた性能を達成しているが、新しいカテゴリへの一般化は未解決の問題のままである。未知のオブジェクトカテゴリに対しては、2Dオープンボキャブラリーセグメンテーションが、凍結CLIPバックボーンと複数の分類出力のアンサンブルのみに依存する有望な結果を達成している。しかし、このような2次元モデルを単に3次元に拡張するだけでは、新規カテゴリに対するマスク毎の分類品質が低いため、良好な性能が得られないことが分かる。本論文では、3Dオープンボキャブラリーパノプティックセグメンテーションに取り組む最初の手法を提案する。我々のモデルは、学習可能なLiDAR特徴と高密度の凍結ビジョンCLIP特徴の融合を利用し、単一の分類ヘッドを用いて基本クラスと新規クラスの両方の予測を行う。新規クラスにおける分類性能をさらに向上させ、CLIPモデルを活用するために、我々は2つの新しい損失関数を提案する:物体レベルの蒸留損失とボクセルレベルの蒸留損失。nuScenesデータセットとSemanticKITTIデータセットを用いた実験により、我々の手法が強力なベースラインを大きく上回ることが示された。

要約(オリジナル)

3D panoptic segmentation is a challenging perception task, which aims to predict both semantic and instance annotations for 3D points in a scene. Although prior 3D panoptic segmentation approaches have achieved great performance on closed-set benchmarks, generalizing to novel categories remains an open problem. For unseen object categories, 2D open-vocabulary segmentation has achieved promising results that solely rely on frozen CLIP backbones and ensembling multiple classification outputs. However, we find that simply extending these 2D models to 3D does not achieve good performance due to poor per-mask classification quality on novel categories. In this paper, we propose the first method to tackle 3D open-vocabulary panoptic segmentation. Our model takes advantage of the fusion between learnable LiDAR features and dense frozen vision CLIP features, using a single classification head to make predictions for both base and novel classes. To further improve the classification performance on novel classes and leverage the CLIP model, we propose two novel loss functions: object-level distillation loss and voxel-level distillation loss. Our experiments on the nuScenes and SemanticKITTI datasets show that our method outperforms strong baselines by a large margin.

arxiv情報

著者 Zihao Xiao,Longlong Jing,Shangxuan Wu,Alex Zihao Zhu,Jingwei Ji,Chiyu Max Jiang,Wei-Chih Hung,Thomas Funkhouser,Weicheng Kuo,Anelia Angelova,Yin Zhou,Shiwei Sheng
発行日 2024-01-04 18:39:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク