ULIP: Learning a Unified Representation of Language, Images, and Point Clouds for 3D Understanding

要約

現在の最先端の 3D モデルの認識機能は、少数の注釈付きデータと定義済みの一連のカテゴリを含むデータセットによって制限されています。
対応する 2D では、最近の進歩により、言語などの他のモダリティからの知識を採用することで、同様の問題を大幅に軽減できることが示されています。
これに触発されて、3Dモダリティのマルチモーダル情報を活用することは、制限されたデータ体制の下で3D理解を改善することを約束するかもしれませんが、この一連の研究は十分に研究されていません.
したがって、ULIP を導入して、3 つのモダリティからのオブジェクト トリプレットを使用して事前トレーニングすることにより、画像、テキスト、および 3D ポイント クラウドの統一された表現を学習します。
トレーニング トリプレットの不足を克服するために、ULIP は事前にトレーニングされた視覚言語モデルを活用します。このモデルは、大量の画像とテキストのペアでトレーニングすることによって、共通の視覚空間とテキスト空間を既に学習しています。
次に、ULIP は、自動合成された少数のトリプレットを使用して、共通の画像テキスト空間に合わせた 3D 表現空間を学習します。
ULIP は 3D バックボーン ネットワークにとらわれず、あらゆる 3D アーキテクチャに簡単に統合できます。
実験によると、ULIP は、フレームワークを使用して ShapeNet55 でそれらを事前トレーニングするだけで、最近の複数の 3D バックボーンのパフォーマンスを効果的に向上させ、ModelNet40 と ScanObjectNN での標準 3D 分類とゼロショット 3D 分類の両方で最先端のパフォーマンスを達成します。
また、ULIP は、ScanObjectNN の 3D 分類で PointMLP のパフォーマンスを約 3% 向上させ、ModelNet40 のゼロ ショット 3D 分類のトップ 1 精度で PointCLIP を 28.8% 上回っています。
コードと事前トレーニング済みモデルは、https://github.com/salesforce/ULIP でリリースされています。

要約(オリジナル)

The recognition capabilities of current state-of-the-art 3D models are limited by datasets with a small number of annotated data and a pre-defined set of categories. In its 2D counterpart, recent advances have shown that similar problems can be significantly alleviated by employing knowledge from other modalities, such as language. Inspired by this, leveraging multimodal information for 3D modality could be promising to improve 3D understanding under the restricted data regime, but this line of research is not well studied. Therefore, we introduce ULIP to learn a unified representation of image, text, and 3D point cloud by pre-training with object triplets from the three modalities. To overcome the shortage of training triplets, ULIP leverages a pre-trained vision-language model that has already learned a common visual and textual space by training with massive image-text pairs. Then, ULIP learns a 3D representation space aligned with the common image-text space, using a small number of automatically synthesized triplets. ULIP is agnostic to 3D backbone networks and can easily be integrated into any 3D architecture. Experiments show that ULIP effectively improves the performance of multiple recent 3D backbones by simply pre-training them on ShapeNet55 using our framework, achieving state-of-the-art performance in both standard 3D classification and zero-shot 3D classification on ModelNet40 and ScanObjectNN. ULIP also improves the performance of PointMLP by around 3% in 3D classification on ScanObjectNN, and outperforms PointCLIP by 28.8% on top-1 accuracy for zero-shot 3D classification on ModelNet40. Our code and pre-trained models are released at https://github.com/salesforce/ULIP.

arxiv情報

著者 Le Xue,Mingfei Gao,Chen Xing,Roberto Martín-Martín,Jiajun Wu,Caiming Xiong,Ran Xu,Juan Carlos Niebles,Silvio Savarese
発行日 2023-03-30 14:09:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク