Text to Point Cloud Localization with Relation-Enhanced Transformer

要約

将来のロボットが人間と通信し、協力するためには、いくつかの自然言語の指示に基づいて位置を自動的にローカライズすることが不可欠です。
この目標に近づくために、テキストからポイント クラウドへのクロスモーダル ローカリゼーションの問題に焦点を当てます。
テキストクエリを指定すると、都市スケールの点群から記述された場所を特定することを目的としています。
このタスクには 2 つの課題があります。
1) 都市規模の点群では、同様の環境インスタンスがいくつかの場所に存在する場合があります。
ガイダンスとしてインスタンスのみを使用して巨大なポイント クラウド内の各場所を検索すると、信号の識別力が低下し、結果が不正確になる可能性があります。
2) テキストの説明では、ヒントは個別に提供されます。
この場合、それらのヒント間の関係が明示的に記述されていないため、関係を学習することが困難になります。
これら 2 つの課題を克服するために、統一された Relation-Enhanced Transformer (RET) を提案して、点群と自然言語クエリの両方の表現識別可能性を向上させます。
提案された RET のコアは、2 つのモダリティのインスタンス (ヒント) に関する関係を明示的にエンコードする、新しい Relation-enhanced Self-Attention (RSA) メカニズムです。
さらに、後続のインスタンス ヒント マッチング段階で位置予測をさらに改良するために、きめ細かいクロスモーダル マッチング方法を提案します。
KITTI360Pose データセットの実験結果は、私たちのアプローチが以前の最先端の方法を大幅に上回っていることを示しています。

要約(オリジナル)

Automatically localizing a position based on a few natural language instructions is essential for future robots to communicate and collaborate with humans. To approach this goal, we focus on the text-to-point-cloud cross-modal localization problem. Given a textual query, it aims to identify the described location from city-scale point clouds. The task involves two challenges. 1) In city-scale point clouds, similar ambient instances may exist in several locations. Searching each location in a huge point cloud with only instances as guidance may lead to less discriminative signals and incorrect results. 2) In textual descriptions, the hints are provided separately. In this case, the relations among those hints are not explicitly described, leading to difficulties of learning relations. To overcome these two challenges, we propose a unified Relation-Enhanced Transformer (RET) to improve representation discriminability for both point cloud and natural language queries. The core of the proposed RET is a novel Relation-enhanced Self-Attention (RSA) mechanism, which explicitly encodes instance (hint)-wise relations for the two modalities. Moreover, we propose a fine-grained cross-modal matching method to further refine the location predictions in a subsequent instance-hint matching stage. Experimental results on the KITTI360Pose dataset demonstrate that our approach surpasses the previous state-of-the-art method by large margin.

arxiv情報

著者 Guangzhi Wang,Hehe Fan,Mohan Kankanhalli
発行日 2023-01-13 02:58:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク