FM-Fusion: Instance-aware Semantic Mapping Boosted by Vision-Language Foundation Models

要約

監視対象オブジェクト検出器に基づくセマンティック マッピングは、画像分布の影響を受けやすくなります。
実際の環境では、オブジェクトの検出とセグメンテーションのパフォーマンスが大幅に低下し、より広範なドメインでのセマンティック マッピングの使用が妨げられる可能性があります。
一方で、ビジョン言語基盤モデルの開発は、データ分散全体にわたる強力なゼロショット転送可能性を実証しています。
これは、一般化可能なインスタンス対応のセマンティック マップを構築する機会を提供します。
したがって、この研究では、基礎モデルから生成されたオブジェクト検出からインスタンスを認識したセマンティック マッピングを強化する方法を検討します。
我々は、開集合ラベル測定から閉集合意味クラスを予測するための確率的ラベル融合法を提案する。
インスタンス調整モジュールは、一貫性のないセグメンテーションによって生じた過剰にセグメント化されたインスタンスをマージします。
すべてのモジュールを統合されたセマンティック マッピング システムに統合します。
私たちの作業では、一連の RGB-D 入力を読み取り、インスタンス対応のセマンティック マップを段階的に再構築します。
ScanNet および SceneNN データセットでのメソッドのゼロショット パフォーマンスを評価します。
私たちの方法は、ScanNet セマンティック インスタンス セグメンテーション タスクで 40.3 の平均精度 (mAP) を達成します。
これは、従来のセマンティック マッピング手法を大幅に上回ります。

要約(オリジナル)

Semantic mapping based on the supervised object detectors is sensitive to image distribution. In real-world environments, the object detection and segmentation performance can lead to a major drop, preventing the use of semantic mapping in a wider domain. On the other hand, the development of vision-language foundation models demonstrates a strong zero-shot transferability across data distribution. It provides an opportunity to construct generalizable instance-aware semantic maps. Hence, this work explores how to boost instance-aware semantic mapping from object detection generated from foundation models. We propose a probabilistic label fusion method to predict close-set semantic classes from open-set label measurements. An instance refinement module merges the over-segmented instances caused by inconsistent segmentation. We integrate all the modules into a unified semantic mapping system. Reading a sequence of RGB-D input, our work incrementally reconstructs an instance-aware semantic map. We evaluate the zero-shot performance of our method in ScanNet and SceneNN datasets. Our method achieves 40.3 mean average precision (mAP) on the ScanNet semantic instance segmentation task. It outperforms the traditional semantic mapping method significantly.

arxiv情報

著者 Chuhao Liu,Ke Wang,Jieqi Shi,Zhijian Qiao,Shaojie Shen
発行日 2024-02-07 03:19:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク