CLIP-Clique: Graph-based Correspondence Matching Augmented by Vision Language Models for Object-based Global Localization

要約

本論文では、意味的オブジェクトランドマークを用いた地図上の大域的定位法を提案する。オブジェクトマップ上のローカライゼーションのための最も有望なアプローチの一つは、周囲のオブジェクトの分布から計算されたランドマーク記述子を用いた意味的グラフマッチングを用いることである。これらの記述子は誤分類や部分的な観測に対して脆弱である。さらに、既存の手法の多くは、確率的で高い外れ値率の影響を受けやすいRANSACを用いた外れ値抽出に依存している。前者の問題に対処するため、我々はビジョン言語モデル(VLM)を用いて対応マッチングを補強する。VLMの埋め込みは周囲のオブジェクトに依存しないため、ランドマークの識別性が向上する。さらに、インライアはグラフ理論的アプローチを用いて決定論的に推定される。さらに、対応類似度と観測の完全性を考慮した重み付き最小二乗法を用いたポーズ計算を組み込み、ロバスト性を向上させた。ScanNetとTUMデータセットを用いた実験により、照合精度と姿勢推定精度の向上を確認した。

要約(オリジナル)

This letter proposes a method of global localization on a map with semantic object landmarks. One of the most promising approaches for localization on object maps is to use semantic graph matching using landmark descriptors calculated from the distribution of surrounding objects. These descriptors are vulnerable to misclassification and partial observations. Moreover, many existing methods rely on inlier extraction using RANSAC, which is stochastic and sensitive to a high outlier rate. To address the former issue, we augment the correspondence matching using Vision Language Models (VLMs). Landmark discriminability is improved by VLM embeddings, which are independent of surrounding objects. In addition, inliers are estimated deterministically using a graph-theoretic approach. We also incorporate pose calculation using the weighted least squares considering correspondence similarity and observation completeness to improve the robustness. We confirmed improvements in matching and pose estimation accuracy through experiments on ScanNet and TUM datasets.

arxiv情報

著者 Shigemichi Matsuzaki,Kazuhito Tanaka,Kazuhiro Shintani
発行日 2024-10-04 00:23:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO パーマリンク