InstaLoc: One-shot Global Lidar Localisation in Indoor Environments through Instance Learning

要約

以前のマップでの自律ロボットの位置特定は、その機能にとって非常に重要です。
この論文では、InstaLoc と呼ばれる屋内環境に対するこの問題の解決策を提供します。これは、個々の LIDAR スキャンを操作して、事前のマップ内で位置を特定します。
私たちは、人間が特徴的なオブジェクトや構造物のレイアウトを認識して移動し、位置を特定する方法からインスピレーションを得ています。
人間のアプローチを模倣して、InstaLoc はシーン内のオブジェクト インスタンスを識別し、以前のマップのオブジェクト インスタンスと照合します。
私たちが知る限り、これは屋内位置特定のために 3D LIDAR スキャンを直接推論するパノプティック セグメンテーションを使用する最初の方法です。
InstaLoc は、空間的に疎なテンソルに基づく 2 つのネットワークを通じて動作し、密な 3D LIDAR 点群を直接推論します。
最初のネットワークは、オブジェクト インスタンスとそのセマンティック クラスを生成するパノプティック セグメンテーション ネットワークです。
2 番目の小規模なネットワークは、オブジェクト インスタンスごとに記述子を生成します。
次に、コンセンサス ベースのマッチング アルゴリズムによってインスタンスが以前のマップと照合され、以前のマップ内の入力クラウドの 6 自由度 (DoF) ポーズが推定されます。
InstaLoc の重要性は、2 つの効率的なネットワークがあることです。
モバイル GPU でのトレーニングは 1 ~ 2 時間しか必要なく、1 Hz でリアルタイムで実行されます。
私たちの方法は、ベースライン方法と比較して、位置特定時に 2 ~ 4 倍の検出を達成し、これらの検出でより高い精度を達成します。

要約(オリジナル)

Localization for autonomous robots in prior maps is crucial for their functionality. This paper offers a solution to this problem for indoor environments called InstaLoc, which operates on an individual lidar scan to localize it within a prior map. We draw on inspiration from how humans navigate and position themselves by recognizing the layout of distinctive objects and structures. Mimicking the human approach, InstaLoc identifies and matches object instances in the scene with those from a prior map. As far as we know, this is the first method to use panoptic segmentation directly inferring on 3D lidar scans for indoor localization. InstaLoc operates through two networks based on spatially sparse tensors to directly infer dense 3D lidar point clouds. The first network is a panoptic segmentation network that produces object instances and their semantic classes. The second smaller network produces a descriptor for each object instance. A consensus based matching algorithm then matches the instances to the prior map and estimates a six degrees of freedom (DoF) pose for the input cloud in the prior map. The significance of InstaLoc is that it has two efficient networks. It requires only one to two hours of training on a mobile GPU and runs in real-time at 1 Hz. Our method achieves between two and four times more detections when localizing, as compared to baseline methods, and achieves higher precision on these detections.

arxiv情報

著者 Lintong Zhang,Tejaswi Digumarti,Georgi Tinchev,Maurice Fallon
発行日 2023-07-04 10:16:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク