FALIP: Visual Prompt as Foveal Attention Boosts CLIP Zero-Shot Performance

要約

CLIP は、画像とテキストのペアのデータで構成される大規模なデータセットでの事前トレーニング後、印象的なゼロショット パフォーマンスを達成しました。
これまでの作品では、色付きの円やぼかしマスクなどの手動で設計された視覚的なプロンプトを画像に組み込むことで CLIP を活用し、モデルの注意を誘導し、下流タスクでのゼロショット パフォーマンスの向上を示していました。
これらの方法は有望な結果を達成していますが、画像の元の情報が必然的に変更されるため、特定のタスクで失敗につながる可能性があります。
我々は、マルチヘッド自己注意モジュールに中心窩注意マスクを挿入することによってCLIPの注意を調整する、トレインフリーの方法中心窩注意クリップ(FALIP)を提案します。
私たちは、FALIP が表現表現の理解、画像分類、3D 点群認識などのタスクにおいて CLIP ゼロショットのパフォーマンスを効果的に向上させることを実証します。
実験結果はさらに、FALIP がほとんどのメトリクスで既存の手法を上回っており、現在の手法を強化してパフォーマンスを向上できることを示しています。

要約(オリジナル)

CLIP has achieved impressive zero-shot performance after pre-training on a large-scale dataset consisting of paired image-text data. Previous works have utilized CLIP by incorporating manually designed visual prompts like colored circles and blur masks into the images to guide the model’s attention, showing enhanced zero-shot performance in downstream tasks. Although these methods have achieved promising results, they inevitably alter the original information of the images, which can lead to failure in specific tasks. We propose a train-free method Foveal-Attention CLIP (FALIP), which adjusts the CLIP’s attention by inserting foveal attention masks into the multi-head self-attention module. We demonstrate FALIP effectively boosts CLIP zero-shot performance in tasks such as referring expressions comprehension, image classification, and 3D point cloud recognition. Experimental results further show that FALIP outperforms existing methods on most metrics and can augment current methods to enhance their performance.

arxiv情報

著者 Jiedong Zhuang,Jiaqi Hu,Lianrui Mu,Rui Hu,Xiaoyu Liang,Jiangnan Ye,Haoji Hu
発行日 2024-08-21 13:40:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク