SG-Reg: Generalizable and Efficient Scene Graph Registration

要約

このペーパーでは、2つの厳格なセマンティックシーングラフを登録するという課題に対処します。これは、自律エージェントがリモートエージェントに対して、または以前のマップに対してマップを登録する必要がある場合に重要な機能です。
古典的なセマンティック支援登録の手作りの記述子、または学習ベースのシーングラフ登録における地上の真実の注釈の信頼は、実際の現実世界環境での適用を妨げます。
課題に対処するために、シーングラフネットワークを設計して、セマンティックノードの複数のモダリティをエンコードします。オープンセットセマンティック機能、空間認識を備えたローカルトポロジ、および形状機能。
これらのモダリティは、コンパクトなセマンティックノード機能を作成するために融合しています。
一致するレイヤーは、粗から洗練された方法で対応を検索します。
バックエンドでは、対応に応じて変換を決定するために堅牢なポーズ推定器を使用します。
まばらで階層的なシーンの表現を維持することができます。
私たちのアプローチでは、GPUリソ​​ースが少なくなり、マルチエージェントタスクの通信帯域幅が少なくなります。
さらに、Vision Foundationモデルとセマンティックマッピングモジュールを使用して、セマンティックシーングラフを再構築する新しいデータ生成アプローチを設計します。
これは、地面の真実のセマンティック注釈に依存してデータを生成する以前の作品とは大きく異なります。
2つのエージェントスラムベンチマークでメソッドを検証します。
登録の成功率の観点から、手作りのベースラインを大幅に上回ります。
Visual Loop Closure Networksと比較して、当社の方法は、クエリフレームごとに52 kbの通信帯域幅のみを必要としながら、わずかに高い登録リコールを実現します。
コード:\ href {http://github.com/hkust-aerial-robotics/sg-reg} {http://github.com/hkust-aerial-robotics/sg-reg}。

要約(オリジナル)

This paper addresses the challenges of registering two rigid semantic scene graphs, an essential capability when an autonomous agent needs to register its map against a remote agent, or against a prior map. The hand-crafted descriptors in classical semantic-aided registration, or the ground-truth annotation reliance in learning-based scene graph registration, impede their application in practical real-world environments. To address the challenges, we design a scene graph network to encode multiple modalities of semantic nodes: open-set semantic feature, local topology with spatial awareness, and shape feature. These modalities are fused to create compact semantic node features. The matching layers then search for correspondences in a coarse-to-fine manner. In the back-end, we employ a robust pose estimator to decide transformation according to the correspondences. We manage to maintain a sparse and hierarchical scene representation. Our approach demands fewer GPU resources and fewer communication bandwidth in multi-agent tasks. Moreover, we design a new data generation approach using vision foundation models and a semantic mapping module to reconstruct semantic scene graphs. It differs significantly from previous works, which rely on ground-truth semantic annotations to generate data. We validate our method in a two-agent SLAM benchmark. It significantly outperforms the hand-crafted baseline in terms of registration success rate. Compared to visual loop closure networks, our method achieves a slightly higher registration recall while requiring only 52 KB of communication bandwidth for each query frame. Code available at: \href{http://github.com/HKUST-Aerial-Robotics/SG-Reg}{http://github.com/HKUST-Aerial-Robotics/SG-Reg}.

arxiv情報

著者 Chuhao Liu,Zhijian Qiao,Jieqi Shi,Ke Wang,Peize Liu,Shaojie Shen
発行日 2025-05-20 15:16:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク