Latent BKI: Open-Dictionary Continuous Mapping in Visual-Language Latent Spaces with Quantifiable Uncertainty

要約

この論文では、定量化可能な不確実性を備えたオープン語彙マッピングを可能にする、新しい確率的マッピング アルゴリズムである Latent BKI を紹介します。
従来、セマンティック マッピング アルゴリズムは、セマンティック カテゴリの固定セットに焦点を当てており、複雑なロボット タスクへの適用性が制限されていました。
視覚言語 (VL) モデルは、潜在空間内の言語と視覚の特徴を共同でモデル化する手法として最近登場し、事前定義された固定セットの意味クラスを超えた意味認識を可能にします。
Latent BKI は、ベイジアン カーネル推論 (BKI) による近くの観測値の空間相関を利用して、定量化可能な不確実性を備えたボクセル マップに VL モデルからのニューラル エンベディングを繰り返し組み込みます。
Latent BKI は、一般的な MatterPort-3D およびセマンティック KITTI データ セット上の同様の明示的セマンティック マッピングおよび VL マッピング フレームワークに対して評価され、Latent BKI が連続マッピングの確率的利点とオープン辞書クエリの追加利点を維持していることが実証されています。
実際の実験では、困難な屋内環境への適用性を実証しています。

要約(オリジナル)

This paper introduces a novel probabilistic mapping algorithm, Latent BKI, which enables open-vocabulary mapping with quantifiable uncertainty. Traditionally, semantic mapping algorithms focus on a fixed set of semantic categories which limits their applicability for complex robotic tasks. Vision-Language (VL) models have recently emerged as a technique to jointly model language and visual features in a latent space, enabling semantic recognition beyond a predefined, fixed set of semantic classes. Latent BKI recurrently incorporates neural embeddings from VL models into a voxel map with quantifiable uncertainty, leveraging the spatial correlations of nearby observations through Bayesian Kernel Inference (BKI). Latent BKI is evaluated against similar explicit semantic mapping and VL mapping frameworks on the popular MatterPort-3D and Semantic KITTI data sets, demonstrating that Latent BKI maintains the probabilistic benefits of continuous mapping with the additional benefit of open-dictionary queries. Real-world experiments demonstrate applicability to challenging indoor environments.

arxiv情報

著者 Joey Wilson,Ruihan Xu,Yile Sun,Parker Ewen,Minghan Zhu,Kira Barton,Maani Ghaffari
発行日 2024-10-15 17:02:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク