FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment

要約

幾何学的に正確で意味的に表現力のある地図表現は、堅牢で安全なモバイルロボットナビゲーションとタスク計画を促進するために非常に貴重であることが証明されています。
それにもかかわらず、大規模な未知の環境のリアルタイムのオープンボキャブラリーセマンティック理解は、依然としてオープンな問題です。
このペーパーでは、視覚言語情報を密集した体積サブマップに組み込んだオープンワールドマッピングおよび探索フレームワークであるFindanythingを紹介します。
ビジョン言語機能の使用のおかげで、Findanythingは、純粋な幾何学的な意味情報と、より高いレベルの理解のための純粋な幾何学的セマンティック情報のギャップを橋渡ししながら、グラウンドトゥルースのポーズ情報の外部ソースの助けを借りずに環境を探索できます。
環境を一連の体積占有サブマップとして表し、基礎となるスラムシステムがドリフトを修正したときにポーズ更新時に変形する堅牢で正確なマップ表現をもたらし、サブマップ間の局所的に一貫した表現を可能にします。
ピクセルごとのビジョン言語機能は、効率的なSAM(ESAM)生成セグメントから集計されており、オブジェクト中心の体積サブマップに統合され、オープンボキャブラリークエリからメモリ使用量の面でもスケーラブルな3Dジオメトリまでのマッピングを提供します。
Findanythingのオープンボキャブラリーマップ表現は、レプリカデータセットのクローズドセット評価で最先端のセマンティック精度を実現します。
このレベルのシーン理解により、ロボットは、自然言語クエリを介して選択されたオブジェクトまたは関心のある領域に基づいて環境を探索できます。
私たちのシステムは、MAVSなどのリソース制約のあるデバイスに展開されたこの種の最初のものであり、実際のロボットタスクのビジョン言語情報を活用しています。

要約(オリジナル)

Geometrically accurate and semantically expressive map representations have proven invaluable to facilitate robust and safe mobile robot navigation and task planning. Nevertheless, real-time, open-vocabulary semantic understanding of large-scale unknown environments is still an open problem. In this paper we present FindAnything, an open-world mapping and exploration framework that incorporates vision-language information into dense volumetric submaps. Thanks to the use of vision-language features, FindAnything bridges the gap between pure geometric and open-vocabulary semantic information for a higher level of understanding while allowing to explore any environment without the help of any external source of ground-truth pose information. We represent the environment as a series of volumetric occupancy submaps, resulting in a robust and accurate map representation that deforms upon pose updates when the underlying SLAM system corrects its drift, allowing for a locally consistent representation between submaps. Pixel-wise vision-language features are aggregated from efficient SAM (eSAM)-generated segments, which are in turn integrated into object-centric volumetric submaps, providing a mapping from open-vocabulary queries to 3D geometry that is scalable also in terms of memory usage. The open-vocabulary map representation of FindAnything achieves state-of-the-art semantic accuracy in closed-set evaluations on the Replica dataset. This level of scene understanding allows a robot to explore environments based on objects or areas of interest selected via natural language queries. Our system is the first of its kind to be deployed on resource-constrained devices, such as MAVs, leveraging vision-language information for real-world robotic tasks.

arxiv情報

著者 Sebastián Barbas Laina,Simon Boche,Sotiris Papatheodorou,Simon Schaefer,Jaehyung Jung,Stefan Leutenegger
発行日 2025-04-11 15:12:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク