要約
洗練されたセマンティクスを備えた環境表現は、ロボットと人間の間のシームレスなインタラクションを促進し、ロボットがさまざまなタスクを効果的に実行できるようにするために極めて重要です。
ビジュアル言語モデル (VLM) を活用したオープン語彙マップには、ゼロショット学習やオープンセット クラスのサポートなど、固有の利点があります。
ただし、既存のオープン語彙マップは主にデスクトップや部屋などの小規模な環境向けに設計されており、通常はロボットによる屋内ナビゲーションやその場での操作を伴う限られたエリアのタスクを対象としています。
彼らは、理解レベルとマップ構造の両方に限界があるため、多数のオブジェクトと複雑なタスクによって特徴付けられる屋外環境に直接一般化するという課題に直面しています。
この研究では、大規模な屋外環境向けに設計された初のオープン語彙階層グラフ表現である OpenGraph を提案します。
OpenGraph は最初にビジュアル画像からインスタンスとそのキャプションを抽出し、それらをエンコードすることでテキスト推論を強化します。
その後、画像を LiDAR 点群に投影することで、特徴を埋め込んだ 3D インクリメンタル オブジェクト中心マッピングを実現します。
最後に、レーン グラフの接続性に基づいて環境がセグメント化され、階層グラフが構築されます。
パブリック データセット SemanticKITTI からの検証結果は、OpenGraph が最高のセグメンテーションとクエリ精度を達成していることを示しています。
OpenGraph のソース コードは、https://github.com/BIT-DYN/OpenGraph で公開されています。
要約(オリジナル)
Environment representations endowed with sophisticated semantics are pivotal for facilitating seamless interaction between robots and humans, enabling them to effectively carry out various tasks. Open-vocabulary maps, powered by Visual-Language models (VLMs), possess inherent advantages, including zero-shot learning and support for open-set classes. However, existing open-vocabulary maps are primarily designed for small-scale environments, such as desktops or rooms, and are typically geared towards limited-area tasks involving robotic indoor navigation or in-place manipulation. They face challenges in direct generalization to outdoor environments characterized by numerous objects and complex tasks, owing to limitations in both understanding level and map structure. In this work, we propose OpenGraph, the first open-vocabulary hierarchical graph representation designed for large-scale outdoor environments. OpenGraph initially extracts instances and their captions from visual images, enhancing textual reasoning by encoding them. Subsequently, it achieves 3D incremental object-centric mapping with feature embedding by projecting images onto LiDAR point clouds. Finally, the environment is segmented based on lane graph connectivity to construct a hierarchical graph. Validation results from public dataset SemanticKITTI demonstrate that OpenGraph achieves the highest segmentation and query accuracy. The source code of OpenGraph is publicly available at https://github.com/BIT-DYN/OpenGraph.
arxiv情報
著者 | Yinan Deng,Jiahui Wang,Jingyu Zhao,Xinyu Tian,Guangyan Chen,Yi Yang,Yufeng Yue |
発行日 | 2024-03-28 14:10:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google