Joint Representation Learning for Text and 3D Point Cloud

要約

視覚言語の事前トレーニング (CLIP など) の最近の進歩により、視覚モデルが言語監督の恩恵を受けることができることが示されました。
言語モダリティを使用する多くのモデルが 2D ビジョン タスクで大きな成功を収めていますが、3D-Text データ ペアの取得の難しさと 3D データ構造の不規則性のために、3D 点群とテキストの共同表現学習はまだ調査されていません。
この論文では、言語ガイド付きの 3D 点群モデルを構築するための新しい Text4Point フレームワークを提案します。
重要なアイデアは、ポイント クラウドと言語モダリティを接続するブリッジとして 2D 画像を利用することです。
提案された Text4Point は、事前トレーニングと微調整のパラダイムに従います。
事前トレーニング段階では、すぐに利用できる RGB-D データに基づいて画像と点群の対応を確立し、対照学習を使用して画像と点群の表現を整列させます。
CLIP によって実現された適切に配置された画像とテキストの機能と共に、点群の機能はテキストの埋め込みと暗黙的に整列されます。
さらに、ポイントクラウド機能を使用してテキスト埋め込みをクエリすることにより、言語情報を3D表現学習に統合するテキストクエリモジュールを提案します。
微調整のために、モデルは、2D 画像なしで設定されたラベルからの有益な言語ガイダンスの下で、タスク固有の 3D 表現を学習します。
広範な実験により、私たちのモデルが、点群セマンティック セグメンテーション、インスタンス セグメンテーション、オブジェクト検出などのさまざまなダウンストリーム タスクで一貫した改善を示していることが実証されています。
コードはこちらから入手できます: https://github.com/LeapLabTHU/Text4Point

要約(オリジナル)

Recent advancements in vision-language pre-training (e.g. CLIP) have shown that vision models can benefit from language supervision. While many models using language modality have achieved great success on 2D vision tasks, the joint representation learning of 3D point cloud with text remains under-explored due to the difficulty of 3D-Text data pair acquisition and the irregularity of 3D data structure. In this paper, we propose a novel Text4Point framework to construct language-guided 3D point cloud models. The key idea is utilizing 2D images as a bridge to connect the point cloud and the language modalities. The proposed Text4Point follows the pre-training and fine-tuning paradigm. During the pre-training stage, we establish the correspondence of images and point clouds based on the readily available RGB-D data and use contrastive learning to align the image and point cloud representations. Together with the well-aligned image and text features achieved by CLIP, the point cloud features are implicitly aligned with the text embeddings. Further, we propose a Text Querying Module to integrate language information into 3D representation learning by querying text embeddings with point cloud features. For fine-tuning, the model learns task-specific 3D representations under informative language guidance from the label set without 2D images. Extensive experiments demonstrate that our model shows consistent improvement on various downstream tasks, such as point cloud semantic segmentation, instance segmentation, and object detection. The code will be available here: https://github.com/LeapLabTHU/Text4Point

arxiv情報

著者 Rui Huang,Xuran Pan,Henry Zheng,Haojun Jiang,Zhifeng Xie,Shiji Song,Gao Huang
発行日 2023-01-18 15:02:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク