Hyperbolic Contrastive Learning for Hierarchical 3D Point Cloud Embedding

要約

双曲空間を使用すると、複雑な階層構造をより効率的にモデリングできます。これは、マルチモーダル データを含むタスクで特に有益です。
双曲幾何学は言語と画像の事前トレーニングに効果的であることが証明されていますが、言語、画像、および 3D 点群モダリティを統合する機能は十分に研究されていません。
双曲マルチモーダル対比事前トレーニングで 3D 点群モダリティを拡張します。
さらに、階層的な 3D 埋め込みを学習し、テキスト モダリティと画像モダリティの両方からの知識の伝達を促進するための含意、モダリティ ギャップ、およびアライメント正則化を調査します。
これらの正則化により、各モダリティ内のモーダル階層と、テキスト、2D 画像、および 3D 点群にわたるモーダル間階層の学習が可能になります。
実験結果は、私たちが提案したトレーニング戦略が優れた 3D 点群エンコーダーを生成し、得られた 3D 点群階層埋め込みがさまざまな下流タスクのパフォーマンスを大幅に向上させることを示しています。

要約(オリジナル)

Hyperbolic spaces allow for more efficient modeling of complex, hierarchical structures, which is particularly beneficial in tasks involving multi-modal data. Although hyperbolic geometries have been proven effective for language-image pre-training, their capabilities to unify language, image, and 3D Point Cloud modalities are under-explored. We extend the 3D Point Cloud modality in hyperbolic multi-modal contrastive pre-training. Additionally, we explore the entailment, modality gap, and alignment regularizers for learning hierarchical 3D embeddings and facilitating the transfer of knowledge from both Text and Image modalities. These regularizers enable the learning of intra-modal hierarchy within each modality and inter-modal hierarchy across text, 2D images, and 3D Point Clouds. Experimental results demonstrate that our proposed training strategy yields an outstanding 3D Point Cloud encoder, and the obtained 3D Point Cloud hierarchical embeddings significantly improve performance on various downstream tasks.

arxiv情報

著者 Yingjie Liu,Pengyu Zhang,Ziyao He,Mingsong Chen,Xuan Tang,Xian Wei
発行日 2025-01-07 13:38:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク