Hierarchical Open-Vocabulary 3D Scene Graphs for Language-Grounded Robot Navigation

要約

最近のオープンボキャブラリーロボットマッピング法は、事前に訓練された視覚言語特徴で高密度の幾何学的マップを豊かにする。これらのマップは、特定の言語概念に対するクエリ時に、ポイント単位の顕著性マップを予測することを可能にするが、大規模な環境やオブジェクトレベルを超える抽象的なクエリは、依然としてかなりのハードルをもたらし、最終的には、言語に基づくロボットナビゲーションを制限する。本研究では、言語に基づくロボットナビゲーションのための階層的なオープン語彙3DシーングラフマッピングアプローチであるHOV-SGを紹介する。オープンボキャブラリービジョンの基礎モデルを活用することで、我々はまず、3Dにおける最先端のオープンボキャブラリーセグメントレベルマップを取得し、その後、それぞれがオープンボキャブラリー特徴で強化されたフロア、部屋、オブジェクト概念からなる3Dシーングラフ階層を構築する。我々のアプローチは、複数階建ての建物を表現することが可能であり、クロスフロアボロノイグラフを用いて、それらの建物をロボットで横断することができる。HOV-SGは3つの異なるデータセットで評価され、オブジェクト、部屋、フロアレベルでのオープンボキャブラリーセマンティック精度で従来のベースラインを上回ると同時に、高密度のオープンボキャブラリーマップと比較して表現サイズを75%削減した。HOV-SGの有効性と汎化能力を証明するために、実世界のマルチストレージ環境における、長ホライズン言語条件付きロボットナビゲーションの成功を紹介する。http://hovsg.github.io/、コードとトライアルビデオデータを提供する。

要約(オリジナル)

Recent open-vocabulary robot mapping methods enrich dense geometric maps with pre-trained visual-language features. While these maps allow for the prediction of point-wise saliency maps when queried for a certain language concept, large-scale environments and abstract queries beyond the object level still pose a considerable hurdle, ultimately limiting language-grounded robotic navigation. In this work, we present HOV-SG, a hierarchical open-vocabulary 3D scene graph mapping approach for language-grounded robot navigation. Leveraging open-vocabulary vision foundation models, we first obtain state-of-the-art open-vocabulary segment-level maps in 3D and subsequently construct a 3D scene graph hierarchy consisting of floor, room, and object concepts, each enriched with open-vocabulary features. Our approach is able to represent multi-story buildings and allows robotic traversal of those using a cross-floor Voronoi graph. HOV-SG is evaluated on three distinct datasets and surpasses previous baselines in open-vocabulary semantic accuracy on the object, room, and floor level while producing a 75% reduction in representation size compared to dense open-vocabulary maps. In order to prove the efficacy and generalization capabilities of HOV-SG, we showcase successful long-horizon language-conditioned robot navigation within real-world multi-storage environments. We provide code and trial video data at http://hovsg.github.io/.

arxiv情報

著者 Abdelrhman Werby,Chenguang Huang,Martin Büchner,Abhinav Valada,Wolfram Burgard
発行日 2024-06-03 17:12:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO パーマリンク