OpenGraph: Open-Vocabulary Hierarchical 3D Graph Representation in Large-Scale Outdoor Environments

要約

洗練されたセマンティクスを備えた環境マップは、ロボットと人間の間のシームレスなインタラクションを促進し、ロボットがさまざまなタスクを効果的に実行できるようにするために極めて重要です。
ビジュアル言語モデル (VLM) を利用したオープン語彙マップには、マルチモーダル検索やオープンセット クラスなどの固有の利点があります。
ただし、既存のオープン語彙マップは、閉じられた屋内シナリオと VLM 機能に制限されているため、使いやすさと推論機能が低下します。
さらに、トポロジ関係が存在しないため、特定のインスタンスの正確なクエリがさらに複雑になります。
この研究では、大規模な屋外環境向けに設計されたオープン語彙の階層グラフ構造の表現である OpenGraph を提案します。
OpenGraph は最初に、2D 基盤モデルを使用してビジュアル画像からインスタンスとそのキャプションを抽出し、テキスト推論を強化する機能を使用してキャプションをエンコードします。
その後、画像を LiDAR 点群に投影することで、特徴が埋め込まれた 3D インクリメンタル パノラマ マッピングが実現されます。
最後に、レーン グラフの接続性に基づいて環境がセグメント化され、階層グラフが構築されます。
実際の公開データセット SemanticKITTI からの検証結果は、モデルを微調整しなくても、OpenGraph が新しいセマンティック クラスに一般化し、最高のセグメンテーションとクエリ精度を達成する能力を示していることを示しています。
OpenGraph のソース コードは、https://github.com/BIT-DYN/OpenGraph で公開されています。

要約(オリジナル)

Environment maps endowed with sophisticated semantics are pivotal for facilitating seamless interaction between robots and humans, enabling them to effectively carry out various tasks. Open-vocabulary maps, powered by Visual-Language models (VLMs), possess inherent advantages, including multimodal retrieval and open-set classes. However, existing open-vocabulary maps are constrained to closed indoor scenarios and VLM features, thereby diminishing their usability and inference capabilities. Moreover, the absence of topological relationships further complicates the accurate querying of specific instances. In this work, we propose OpenGraph, a representation of open-vocabulary hierarchical graph structure designed for large-scale outdoor environments. OpenGraph initially extracts instances and their captions from visual images using 2D foundation models, encoding the captions with features to enhance textual reasoning. Subsequently, 3D incremental panoramic mapping with feature embedding is achieved by projecting images onto LiDAR point clouds. Finally, the environment is segmented based on lane graph connectivity to construct a hierarchical graph. Validation results from real public dataset SemanticKITTI demonstrate that, even without fine-tuning the models, OpenGraph exhibits the ability to generalize to novel semantic classes and achieve the highest segmentation and query accuracy. The source code of OpenGraph is publicly available at https://github.com/BIT-DYN/OpenGraph.

arxiv情報

著者 Yinan Deng,Jiahui Wang,Jingyu Zhao,Xinyu Tian,Guangyan Chen,Yi Yang,Yufeng Yue
発行日 2024-03-14 14:03:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク