Bridging Text and Vision: A Multi-View Text-Vision Registration Approach for Cross-Modal Place Recognition

要約

モバイルロボットは、場所を正確に識別し、パッケージ配信などのタスクを実行するために、高度な自然言語理解機能を必要とします。
ただし、従来の視覚的な場所認識(VPR)方法は、シングルビューの視覚情報のみに依存しており、人間の言語の説明を解釈することはできません。
この課題を克服するために、場所認識タスクのためにText4VPRと呼ばれるマルチビュー(360 {\ deg}ビュー)Text-Vision登録アプローチを提案することにより、テキストとビジョンを橋渡しします。
Text4VPRは、凍結したT5言語モデルを採用して、グローバルなテキスト埋め込みを抽出します。
さらに、温度係数を備えたSinkhornアルゴリズムを使用して、それぞれのクラスターにローカルトークンを割り当て、画像から視覚的記述子を集約します。
トレーニング段階では、Text4VPRは、正確なテキスト説明のために、個々のテキスト画像ペア間のアラインメントを強調します。
推論の段階では、Text4VPRはカスケードされたクロスアテナントCOSINEアライメント(CCCA)を使用して、テキストグループと画像グループ間の内部の不一致に対処します。
その後、Text4VPRは、テキストイメージグループの説明に基づいて正確に一致することを実行します。
Street360Locで、作成した最初のテキストVPRデータセットであるText4VPRは、堅牢なベースラインを構築し、57%の主要なトップ1精度とテストセットの5メートル半径内で92%のトップ10精度を達成します。

要約(オリジナル)

Mobile robots necessitate advanced natural language understanding capabilities to accurately identify locations and perform tasks such as package delivery. However, traditional visual place recognition (VPR) methods rely solely on single-view visual information and cannot interpret human language descriptions. To overcome this challenge, we bridge text and vision by proposing a multiview (360{\deg} views of the surroundings) text-vision registration approach called Text4VPR for place recognition task, which is the first method that exclusively utilizes textual descriptions to match a database of images. Text4VPR employs the frozen T5 language model to extract global textual embeddings. Additionally, it utilizes the Sinkhorn algorithm with temperature coefficient to assign local tokens to their respective clusters, thereby aggregating visual descriptors from images. During the training stage, Text4VPR emphasizes the alignment between individual text-image pairs for precise textual description. In the inference stage, Text4VPR uses the Cascaded Cross-Attention Cosine Alignment (CCCA) to address the internal mismatch between text and image groups. Subsequently, Text4VPR performs precisely place match based on the descriptions of text-image groups. On Street360Loc, the first text to image VPR dataset we created, Text4VPR builds a robust baseline, achieving a leading top-1 accuracy of 57% and a leading top-10 accuracy of 92% within a 5-meter radius on the test set, which indicates that localization from textual descriptions to images is not only feasible but also holds significant potential for further advancement, as shown in Figure 1.

arxiv情報

著者 Tianyi Shang,Zhenyu Li,Pengjie Xu,Jinwei Qiao,Gang Chen,Zihan Ruan,Weijun Hu
発行日 2025-03-07 12:30:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク