PointCloud-Text Matching: Benchmark Datasets and a Baseline

要約

このペーパーでは、新しいインスタンス レベルの取得タスクである PointCloud-Text Matching~(PTM) を紹介し、研究します。これは、特定のポイントクラウド クエリまたはテキスト クエリに一致する正確なクロスモーダル インスタンスを見つけることを目的としています。
PTM は、屋内/都市部の峡谷の位置特定やシーンの検索など、さまざまなシナリオに適用できます。
しかし、実際には、PTM に適した、対象を絞ったデータセットは存在しません。
したがって、3 つの新しい PTM ベンチマーク データセット、つまり 3D2T-SR、3D2T-NR、および 3D2T-QA を構築します。
点群のまばらさ、ノイズ、または無秩序、およびテキストのあいまいさ、あいまいさ、または不完全さにより、データは困難でノイズの多い対応関係があり、既存のクロスモーダル マッチング手法が PTM に対して無効になっていることが観察されています。
これらの課題に取り組むために、私たちは Robust PointCloud-Text Matching Method (RoMa) という名前の PTM ベースラインを提案します。
RoMa は、二重注意知覚モジュール (DAP) と堅牢なネガティブ対照学習モジュール (RNCL) の 2 つのモジュールで構成されます。
具体的には、DAP はトークンレベルと機能レベルの注意を活用して、有用なローカルおよびグローバル機能に適応的に焦点を当て、それらを共通の表現に集約することで、ノイズと曖昧さの悪影響を軽減します。
ノイズの多い対応を処理するために、RNCL は、ポジティブのペアよりもエラーが発生しにくいネガティブ ペアをクリーンなサブセットとノイズの多いサブセットに分割し、それぞれに順方向と逆方向の最適化方向を割り当てます。これにより、ノイズのある対応に対するロバスト性が強化されます。
当社はベンチマークに関して広範な実験を実施し、RoMa の優位性を実証しています。

要約(オリジナル)

In this paper, we present and study a new instance-level retrieval task: PointCloud-Text Matching~(PTM), which aims to find the exact cross-modal instance that matches a given point-cloud query or text query. PTM could be applied to various scenarios, such as indoor/urban-canyon localization and scene retrieval. However, there exists no suitable and targeted dataset for PTM in practice. Therefore, we construct three new PTM benchmark datasets, namely 3D2T-SR, 3D2T-NR, and 3D2T-QA. We observe that the data is challenging and with noisy correspondence due to the sparsity, noise, or disorder of point clouds and the ambiguity, vagueness, or incompleteness of texts, which make existing cross-modal matching methods ineffective for PTM. To tackle these challenges, we propose a PTM baseline, named Robust PointCloud-Text Matching method (RoMa). RoMa consists of two modules: a Dual Attention Perception module (DAP) and a Robust Negative Contrastive Learning module (RNCL). Specifically, DAP leverages token-level and feature-level attention to adaptively focus on useful local and global features, and aggregate them into common representations, thereby reducing the adverse impact of noise and ambiguity. To handle noisy correspondence, RNCL divides negative pairs, which are much less error-prone than positive pairs, into clean and noisy subsets, and assigns them forward and reverse optimization directions respectively, thus enhancing robustness against noisy correspondence. We conduct extensive experiments on our benchmarks and demonstrate the superiority of our RoMa.

arxiv情報

著者 Yanglin Feng,Yang Qin,Dezhong Peng,Hongyuan Zhu,Xi Peng,Peng Hu
発行日 2024-03-28 12:51:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク