RoboHop: Segment-based Topological Map Representation for Open-World Visual Navigation

要約

マッピングは、空間推論、計画、ロボットのナビゲーションにとって非常に重要です。
既存のアプローチは、正確なジオメトリベースの最適化を必要とするメトリックから、ノードとしてのイメージベースのグラフに明示的なオブジェクトレベルの推論と相互接続性が欠けている純粋なトポロジカルなものまで多岐にわたります。
この論文では、「画像セグメント」に基づく環境の新しいトポロジー表現を提案します。これは意味的に意味があり、オープンな語彙でクエリ可能であり、ピクセルレベルの特徴に基づく以前の研究に比べていくつかの利点をもたらします。
3D シーン グラフとは異なり、セグメントをノードとして持つ純粋なトポロジカル グラフを作成します。エッジは、a) 連続する画像のペア間でセグメント レベルの記述子を関連付けること、および b) ピクセル重心を使用して画像内の隣接するセグメントを接続することによって形成されます。
これにより、画像内の隣接セグメントとともにセグメントの画像間持続性によって定義される「場所の連続的な感覚」が明らかになります。
さらに、グラフ畳み込み層を使用した近傍集約を通じてセグメント レベルの記述子を表現および更新できるようになり、セグメント レベルの取得に基づいたロボットの位置特定が向上します。
実世界のデータを使用して、私たちが提案する地図表現が、i) 「セグメント上のホップ」の形式でナビゲーション プランを生成すること、および ii) オブジェクトの空間関係を記述する自然言語クエリを使用してターゲット オブジェクトを検索するためにどのように使用できるかを示します。
さらに、セグメントレベルでのデータの関連付けを定量的に分析します。これは、マッピング中の画像間の接続性と、同じ場所を再訪問したときのセグメントレベルの位置特定を裏付けます。
最後に、セグメントレベルの「ホッピング」ベースのゼロショット実世界ナビゲーションに関する予備試験を示します。
補足詳細を含むプロジェクト ページ: oravus.github.io/RoboHop/

要約(オリジナル)

Mapping is crucial for spatial reasoning, planning and robot navigation. Existing approaches range from metric, which require precise geometry-based optimization, to purely topological, where image-as-node based graphs lack explicit object-level reasoning and interconnectivity. In this paper, we propose a novel topological representation of an environment based on ‘image segments’, which are semantically meaningful and open-vocabulary queryable, conferring several advantages over previous works based on pixel-level features. Unlike 3D scene graphs, we create a purely topological graph with segments as nodes, where edges are formed by a) associating segment-level descriptors between pairs of consecutive images and b) connecting neighboring segments within an image using their pixel centroids. This unveils a ‘continuous sense of a place’, defined by inter-image persistence of segments along with their intra-image neighbours. It further enables us to represent and update segment-level descriptors through neighborhood aggregation using graph convolution layers, which improves robot localization based on segment-level retrieval. Using real-world data, we show how our proposed map representation can be used to i) generate navigation plans in the form of ‘hops over segments’ and ii) search for target objects using natural language queries describing spatial relations of objects. Furthermore, we quantitatively analyze data association at the segment level, which underpins inter-image connectivity during mapping and segment-level localization when revisiting the same place. Finally, we show preliminary trials on segment-level `hopping’ based zero-shot real-world navigation. Project page with supplementary details: oravus.github.io/RoboHop/

arxiv情報

著者 Sourav Garg,Krishan Rana,Mehdi Hosseinzadeh,Lachlan Mares,Niko Sünderhauf,Feras Dayoub,Ian Reid
発行日 2024-05-09 14:17:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.HC, cs.LG, cs.RO パーマリンク