要約
私たちは、いくつかの自然な言語記述に基づいて 3D 点群の位置特定の問題に取り組み、点とテキストの間の意味論的な関係を完全に解釈する新しいニューラル ネットワーク Text2Loc を導入します。
Text2Loc は、粗いローカリゼーションから細かいローカリゼーション パイプラインに従います。つまり、テキスト サブマップのグローバルな場所認識の後に、細かいローカリゼーションが続きます。
グローバルな場所認識では、各テキスト ヒント間の関係ダイナミクスが最大プーリング (HTM) を備えた階層トランスフォーマーでキャプチャされ、正と負のペア間のバランスはテキスト サブマップ対比学習を使用して維持されます。
さらに、位置予測をさらに洗練するための新しいマッチングフリーの精密位置特定方法を提案します。これは、複雑なテキストインスタンスのマッチングの必要性を完全に排除し、以前の方法よりも軽量、高速、および正確です。
広範な実験により、Text2Loc は KITTI360Pose データセットの最先端技術と比較して、位置特定の精度が最大 $2\times$ 向上することが示されています。
コードを公開します。
要約(オリジナル)
We tackle the problem of 3D point cloud localization based on a few natural linguistic descriptions and introduce a novel neural network, Text2Loc, that fully interprets the semantic relationship between points and text. Text2Loc follows a coarse-to-fine localization pipeline: text-submap global place recognition, followed by fine localization. In global place recognition, relational dynamics among each textual hint are captured in a hierarchical transformer with max-pooling (HTM), whereas a balance between positive and negative pairs is maintained using text-submap contrastive learning. Moreover, we propose a novel matching-free fine localization method to further refine the location predictions, which completely removes the need for complicated text-instance matching and is lighter, faster, and more accurate than previous methods. Extensive experiments show that Text2Loc improves the localization accuracy by up to $2\times$ over the state-of-the-art on the KITTI360Pose dataset. We will make the code publicly available.
arxiv情報
著者 | Yan Xia,Letian Shi,Zifeng Ding,João F. Henriques,Daniel Cremers |
発行日 | 2023-11-27 16:23:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google