LatentBKI: Open-Dictionary Continuous Mapping in Visual-Language Latent Spaces with Quantifiable Uncertainty

要約

この論文では、定量化可能な不確実性を備えたオープン語彙マッピングを可能にする、新しい確率的マッピング アルゴリズム LatentBKI を紹介します。
従来、セマンティック マッピング アルゴリズムは、セマンティック カテゴリの固定セットに焦点を当てており、複雑なロボット タスクへの適用性が制限されていました。
視覚言語 (VL) モデルは、潜在空間内の言語と視覚の特徴を共同でモデル化する手法として最近登場し、事前定義された固定セットの意味クラスを超えた意味認識を可能にします。
LatentBKI は、ベイジアン カーネル推論 (BKI) による近くの観測値の空間相関を活用して、定量化可能な不確実性を備えたボクセル マップに VL モデルからのニューラル エンベディングを繰り返し組み込みます。
LatentBKI は、一般的な Matterport3D およびセマンティック KITTI データセット上の同様の明示的セマンティック マッピングおよび VL マッピング フレームワークに対して評価され、LatentBKI が連続マッピングの確率的利点とオープン辞書クエリの追加利点を維持していることが実証されています。
実際の実験では、困難な屋内環境への適用性を実証しています。

要約(オリジナル)

This paper introduces a novel probabilistic mapping algorithm, LatentBKI, which enables open-vocabulary mapping with quantifiable uncertainty. Traditionally, semantic mapping algorithms focus on a fixed set of semantic categories which limits their applicability for complex robotic tasks. Vision-Language (VL) models have recently emerged as a technique to jointly model language and visual features in a latent space, enabling semantic recognition beyond a predefined, fixed set of semantic classes. LatentBKI recurrently incorporates neural embeddings from VL models into a voxel map with quantifiable uncertainty, leveraging the spatial correlations of nearby observations through Bayesian Kernel Inference (BKI). LatentBKI is evaluated against similar explicit semantic mapping and VL mapping frameworks on the popular Matterport3D and Semantic KITTI datasets, demonstrating that LatentBKI maintains the probabilistic benefits of continuous mapping with the additional benefit of open-dictionary queries. Real-world experiments demonstrate applicability to challenging indoor environments.

arxiv情報

著者 Joey Wilson,Ruihan Xu,Yile Sun,Parker Ewen,Minghan Zhu,Kira Barton,Maani Ghaffari
発行日 2025-01-21 21:46:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク