VT-CLIP: Enhancing Vision-Language Models with Visual-guided Texts

要約

Contrastive Language-Image Pre-training (CLIP) は、伝達可能な視覚表現学習として最近ますます注目を集めています。
ただし、データセット内のセマンティック ギャップにより、CLIP の事前トレーニングされた画像とテキストの位置合わせは下流のタスクでは最適ではなくなり、転送パフォーマンスに重大な悪影響を及ぼします。
クロスモダリティ埋め込み空間をより適切に適応させるために、VT-CLIP と呼ばれる視覚ガイド付きテキストを介して CLIP を強化することを提案します。
具体的には、さまざまなカテゴリのテキスト特徴をガイドして、画像上の情報領域を適応的に探索し、注意メカニズムによって視覚特徴を集約します。
このようにして、テキストは視覚的にガイドされるようになり、下流の画像とより意味的に関連付けられるようになり、カテゴリごとのマッチング プロセスに大きな利益をもたらします。
少数ショット設定では、11 のよく知られた分類データセットで VT-CLIP を評価し、その有効性を実証します。

要約(オリジナル)

Contrastive Language-Image Pre-training (CLIP) has drawn increasing attention recently for its transferable visual representation learning. However, due to the semantic gap within datasets, CLIP’s pre-trained image-text alignment becomes sub-optimal on downstream tasks, which severely harms its transferring performance. To better adapt the cross-modality embedding space, we propose to enhance CLIP via Visual-guided Texts, named VT-CLIP. Specifically, we guide textual features of different categories to adaptively explore informative regions on the image and aggregate visual features by attention mechanisms. In this way, the texts become visual-guided, namely, more semantically correlated with downstream images, which greatly benefits the category-wise matching process. In few-shot settings, we evaluate our VT-CLIP on 11 well-known classification datasets to demonstrate its effectiveness.

arxiv情報

著者 Longtian Qiu,Renrui Zhang,Ziyu Guo,Ziyao Zeng,Zilu Guo,Yafeng Li,Guangnan Zhang
発行日 2023-08-10 15:31:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク