Open-Vocabulary Online Semantic Mapping for SLAM

要約

このペーパーでは、頭字語OVOで示すオープンボキャブラリーオンライン3Dセマンティックマッピングパイプラインを紹介します。
POSED RGB-Dフレームのシーケンスを考慮して、3Dセグメントを検出および追跡し、クリップベクトルを使用して説明します。
これらは、新しいクリップマージメソッドによって観察される視点から計算されます。
特に、当社のOVOは、オフラインのベースラインよりも計算およびメモリのフットプリントが大幅に低く、同時にセグメンテーションメトリックよりも優れたセグメンテーションメトリックも表示されます。
優れたセグメンテーションパフォーマンスに加えて、2つの異なるスラムバックボーン(Gaussian-SlamとOrb-Slam2)と統合されたマッピング寄与の実験結果も示しています。

要約(オリジナル)

This paper presents an Open-Vocabulary Online 3D semantic mapping pipeline, that we denote by its acronym OVO. Given a sequence of posed RGB-D frames, we detect and track 3D segments, which we describe using CLIP vectors. These are computed from the viewpoints where they are observed by a novel CLIP merging method. Notably, our OVO has a significantly lower computational and memory footprint than offline baselines, while also showing better segmentation metrics than them. Along with superior segmentation performance, we also show experimental results of our mapping contributions integrated with two different SLAM backbones (Gaussian-SLAM and ORB-SLAM2), being the first ones demonstrating end-to-end open-vocabulary online 3D reconstructions without relying on ground-truth camera poses or scene geometry.

arxiv情報

著者 Tomas Berriel Martins,Martin R. Oswald,Javier Civera
発行日 2025-03-10 14:44:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク