GS-CLIP: Gaussian Splatting for Contrastive Language-Image-3D Pretraining from Real-World Data

要約

点群として表現される 3D Shape は、オブジェクトの識別、分類、検索にとって重要な、画像と言語の記述を調整するためのマルチモーダル事前トレーニングの進歩を実現しました。
ただし、点群の離散表現ではオブジェクトの表面形状情報が失われ、レンダリング結果と 2D の対応の間にギャップが生じます。
この問題に対処するために、我々は 3DGS (3D Gaussian Splatting) をマルチモーダル事前トレーニングに導入して 3D 表現を強化する最初の試みとして GS-CLIP を提案します。
GS-CLIP は、現実世界の大規模な画像とテキストのペア上で学習された共通の視覚空間とテキスト空間の事前トレーニング済み視覚言語モデルを活用し、オブジェクトごとに最適化された 3DGS を調整するための 3D エンコーダーを学習します。
さらに、グローバルな明示的な特徴を抽出して融合するための新しいガウス認識融合が提案されています。
言語、画像、3D 事前トレーニングの一般的なフレームワークとして、GS-CLIP は 3D バックボーン ネットワークに依存しません。
挑戦的な実験では、GS-CLIP が最先端の技術を大幅に改善し、以前の最高の結果を上回るパフォーマンスを示していることがわかりました。

要約(オリジナル)

3D Shape represented as point cloud has achieve advancements in multimodal pre-training to align image and language descriptions, which is curial to object identification, classification, and retrieval. However, the discrete representations of point cloud lost the object’s surface shape information and creates a gap between rendering results and 2D correspondences. To address this problem, we propose GS-CLIP for the first attempt to introduce 3DGS (3D Gaussian Splatting) into multimodal pre-training to enhance 3D representation. GS-CLIP leverages a pre-trained vision-language model for a learned common visual and textual space on massive real world image-text pairs and then learns a 3D Encoder for aligning 3DGS optimized per object. Additionally, a novel Gaussian-Aware Fusion is proposed to extract and fuse global explicit feature. As a general framework for language-image-3D pre-training, GS-CLIP is agnostic to 3D backbone networks. Experiments on challenging shows that GS-CLIP significantly improves the state-of-the-art, outperforming the previously best results.

arxiv情報

著者 Haoyuan Li,Yanpeng Zhou,Yihan Zeng,Hang Xu,Xiaodan Liang
発行日 2024-02-13 15:33:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク