要約
大規模な事前学習済みモデルは、マルチモーダル学習を可能にすることでコンピュータビジョンに大きな影響を与えており、CLIPモデルは画像分類、物体検出、セマンティックセグメンテーションにおいて印象的な結果を達成している。しかし、3D点群処理タスクにおけるCLIPモデルの性能は、3D投影からの深度マップとCLIPの学習画像との間の領域ギャップのため、制限されている。本論文では、視覚ブランチにおけるドメインギャップを最小化するために、ControlNetと安定拡散を組み込んだ新しい事前学習フレームワークであるDiffCLIPを提案する。さらに、テキストブランチにおける数ショットのタスクのために、スタイルプロンプト生成モジュールを導入する。ModelNet10、ModelNet40、ScanObjectNNデータセットを用いた広範な実験により、DiffCLIPが3次元理解に強い能力を持つことが示された。安定な拡散とスタイルプロンプト生成を用いることで、DiffCLIPはScanObjectNNのOBJ_BGのゼロショット分類において43.2%の精度を達成し、これは最先端の性能である。
要約(オリジナル)
Large pre-trained models have had a significant impact on computer vision by enabling multi-modal learning, where the CLIP model has achieved impressive results in image classification, object detection, and semantic segmentation. However, the model’s performance on 3D point cloud processing tasks is limited due to the domain gap between depth maps from 3D projection and training images of CLIP. This paper proposes DiffCLIP, a new pre-training framework that incorporates stable diffusion with ControlNet to minimize the domain gap in the visual branch. Additionally, a style-prompt generation module is introduced for few-shot tasks in the textual branch. Extensive experiments on the ModelNet10, ModelNet40, and ScanObjectNN datasets show that DiffCLIP has strong abilities for 3D understanding. By using stable diffusion and style-prompt generation, DiffCLIP achieves an accuracy of 43.2\% for zero-shot classification on OBJ\_BG of ScanObjectNN, which is state-of-the-art performance, and an accuracy of 80.6\% for zero-shot classification on ModelNet10, which is comparable to state-of-the-art performance.
arxiv情報
著者 | Sitian Shen,Zilin Zhu,Linqian Fan,Harry Zhang,Xinxiao Wu |
発行日 | 2024-05-06 16:15:50+00:00 |
arxivサイト | arxiv_id(pdf) |