CLIPSelf: Vision Transformer Distills Itself for Open-Vocabulary Dense Prediction

要約

物体検出や画像セグメンテーションを含むオープン語彙の高密度予測タスクは、対照的言語画像事前トレーニング (CLIP) の成功によって進歩しました。
CLIP モデル、特にビジョン トランスフォーマー (ViT) を組み込んだモデルは、ゼロショット画像分類において顕著な一般化能力を示しています。
ただし、オープンボキャブラリーの密な予測タスクのために、CLIP の視覚と言語のアライメントをグローバル画像表現からローカル領域表現に移すとき、CLIP ViT は完全画像からローカル画像領域へのドメインシフトに悩まされます。
この論文では、下流のオープン語彙の密な予測タスクに不可欠な、CLIP モデルにおける地域と言語のアライメントの詳細な分析に着手します。
続いて、領域とテキストのペアを必要とせずに、CLIP ViT の画像レベルの認識能力を局所的な画像領域に適応させる CLIPSelf という名前のアプローチを提案します。
CLIPSelf は、高密度特徴マップから抽出された領域表現を、対応する画像クロップの画像レベル表現と位置合わせすることで、ViT 自身を抽出できるようにします。
強化された CLIP ViT により、オープン語彙オブジェクト検出、セマンティック セグメンテーション、およびパノプティック セグメンテーションにおいて、さまざまなベンチマークにわたって新しい最先端のパフォーマンスを実現します。
モデルとコードは https://github.com/wusize/CLIPSelf でリリースされています。

要約(オリジナル)

Open-vocabulary dense prediction tasks including object detection and image segmentation have been advanced by the success of Contrastive Language-Image Pre-training (CLIP). CLIP models, particularly those incorporating vision transformers (ViTs), have exhibited remarkable generalization ability in zero-shot image classification. However, when transferring the vision-language alignment of CLIP from global image representation to local region representation for the open-vocabulary dense prediction tasks, CLIP ViTs suffer from the domain shift from full images to local image regions. In this paper, we embark on an in-depth analysis of the region-language alignment in CLIP models, which is essential for downstream open-vocabulary dense prediction tasks. Subsequently, we propose an approach named CLIPSelf, which adapts the image-level recognition ability of CLIP ViT to local image regions without needing any region-text pairs. CLIPSelf empowers ViTs to distill itself by aligning a region representation extracted from its dense feature map with the image-level representation of the corresponding image crop. With the enhanced CLIP ViTs, we achieve new state-of-the-art performance on open-vocabulary object detection, semantic segmentation, and panoptic segmentation across various benchmarks. Models and code are released at https://github.com/wusize/CLIPSelf.

arxiv情報

著者 Size Wu,Wenwei Zhang,Lumin Xu,Sheng Jin,Xiangtai Li,Wentao Liu,Chen Change Loy
発行日 2024-01-24 18:11:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク