Text to Point Cloud Localization with Relation-Enhanced Transformer


この目標に近づくために、テキストからポイント クラウドへのクロスモーダル ローカリゼーションの問題に焦点を当てます。
このタスクには 2 つの課題があります。
1) 都市規模の点群では、同様の環境インスタンスがいくつかの場所に存在する場合があります。
ガイダンスとしてインスタンスのみを使用して巨大なポイント クラウド内の各場所を検索すると、信号の識別力が低下し、結果が不正確になる可能性があります。
2) テキストの説明では、ヒントは個別に提供されます。
これら 2 つの課題を克服するために、統一された Relation-Enhanced Transformer (RET) を提案して、点群と自然言語クエリの両方の表現識別可能性を向上させます。
提案された RET のコアは、2 つのモダリティのインスタンス (ヒント) に関する関係を明示的にエンコードする、新しい Relation-enhanced Self-Attention (RSA) メカニズムです。
さらに、後続のインスタンス ヒント マッチング段階で位置予測をさらに改良するために、きめ細かいクロスモーダル マッチング方法を提案します。
KITTI360Pose データセットの実験結果は、私たちのアプローチが以前の最先端の方法を大幅に上回っていることを示しています。


Automatically localizing a position based on a few natural language instructions is essential for future robots to communicate and collaborate with humans. To approach this goal, we focus on the text-to-point-cloud cross-modal localization problem. Given a textual query, it aims to identify the described location from city-scale point clouds. The task involves two challenges. 1) In city-scale point clouds, similar ambient instances may exist in several locations. Searching each location in a huge point cloud with only instances as guidance may lead to less discriminative signals and incorrect results. 2) In textual descriptions, the hints are provided separately. In this case, the relations among those hints are not explicitly described, leading to difficulties of learning relations. To overcome these two challenges, we propose a unified Relation-Enhanced Transformer (RET) to improve representation discriminability for both point cloud and natural language queries. The core of the proposed RET is a novel Relation-enhanced Self-Attention (RSA) mechanism, which explicitly encodes instance (hint)-wise relations for the two modalities. Moreover, we propose a fine-grained cross-modal matching method to further refine the location predictions in a subsequent instance-hint matching stage. Experimental results on the KITTI360Pose dataset demonstrate that our approach surpasses the previous state-of-the-art method by large margin.


著者 Guangzhi Wang,Hehe Fan,Mohan Kankanhalli
発行日 2023-01-13 02:58:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク