要約
現在の 3D 形状データセットの規模が限られているため、3D 形状理解の進歩が妨げられ、データが豊富な 2D 画像および言語モダリティから学習した知識を 3D 形状に移すマルチモーダル学習アプローチが促進されます。
ただし、画像と言語表現が CLIP のようなクロスモーダル モデルによって調整されているにもかかわらず、既存のマルチモーダル 3D 表現学習方法では、画像モダリティが言語ほど貢献していないことがわかりました。
これは、2D 画像のドメイン シフトと各モダリティの明確な焦点に起因すると考えられます。
事前トレーニングで両方のモダリティをより効果的に活用するために、3 つの相乗アダプターに基づく新しい 2 段階の学習アプローチである TriAdapter Multi-Modal Learning (TAMM) を導入します。
まず、CLIP イメージ アダプターは、合成画像とテキストのペアに対して CLIP の視覚表現を適応させることで、3D レンダリングされた画像と自然画像の間のドメイン ギャップを軽減します。
その後、当社のデュアル アダプターは 3D 形状表現空間を 2 つの相補的なサブ空間に分離します。1 つは視覚的属性に焦点を当て、もう 1 つは意味論的な理解に重点を置き、より包括的で効果的なマルチモーダル事前トレーニングを保証します。
広範な実験により、TAMM が幅広い 3D エンコーダ アーキテクチャ、事前トレーニング データセット、およびダウンストリーム タスクの 3D 表現を一貫して強化することが実証されました。
特に、Objaverse-LVIS でのゼロショット分類精度が 46.8 から 50.7 に向上し、ModelNet40 での 5 ウェイ 10 ショット線形プローブ分類精度が 96.1 から 99.0 に向上しました。
プロジェクト ページ: \url{https://alanzhangcs.github.io/tamm-page}。
要約(オリジナル)
The limited scale of current 3D shape datasets hinders the advancements in 3D shape understanding, and motivates multi-modal learning approaches which transfer learned knowledge from data-abundant 2D image and language modalities to 3D shapes. However, even though the image and language representations have been aligned by cross-modal models like CLIP, we find that the image modality fails to contribute as much as the language in existing multi-modal 3D representation learning methods. This is attributed to the domain shift in the 2D images and the distinct focus of each modality. To more effectively leverage both modalities in the pre-training, we introduce TriAdapter Multi-Modal Learning (TAMM) — a novel two-stage learning approach based on three synergetic adapters. First, our CLIP Image Adapter mitigates the domain gap between 3D-rendered images and natural images, by adapting the visual representations of CLIP for synthetic image-text pairs. Subsequently, our Dual Adapters decouple the 3D shape representation space into two complementary sub-spaces: one focusing on visual attributes and the other for semantic understanding, which ensure a more comprehensive and effective multi-modal pre-training. Extensive experiments demonstrate that TAMM consistently enhances 3D representations for a wide range of 3D encoder architectures, pre-training datasets, and downstream tasks. Notably, we boost the zero-shot classification accuracy on Objaverse-LVIS from 46.8 to 50.7, and improve the 5-way 10-shot linear probing classification accuracy on ModelNet40 from 96.1 to 99.0. Project page: \url{https://alanzhangcs.github.io/tamm-page}.
arxiv情報
著者 | Zhihao Zhang,Shengcao Cao,Yu-Xiong Wang |
発行日 | 2024-02-28 17:18:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google