要約
対照言語画像事前トレーニング (CLIP) は、画像分類において顕著な汎化能力を示しました。
ただし、CLIP では、ゼロショット推論中にダウンストリーム データセットのパフォーマンスが低下することがあります。
テスト時の適応方法では、正規化レイヤーを調整したり、大きなバッチ サイズと広範な拡張を使用してコンテキスト プロンプトを調整したりすることで、これを軽減しようとします。
ただし、これらの方法は大量の計算を必要とします。
これは重要な疑問を引き起こします。そのような場合に CLIP のパフォーマンス低下に効率的に対処できるトレーニング不要のアプローチはあるのでしょうか?
これを調査するために、もともとビジョン変換器の効率を高めるために設計されたトークン圧縮技術を、CLIP ゼロショット推論タスクでベンチマークします。
トークンの圧縮によりドメイン内の精度が損なわれる可能性はあるものの、特定のデータセット間のベンチマークでは驚くほど CLIP のパフォーマンスが向上することがわかりました。
これにより、次の 2 つの重要な疑問が生じます。(1) トークン圧縮は、CLIP ゼロショット推論の「フリーランチ」ソリューションとして機能できるか?
(2) 圧縮の指針となるべき基準は何ですか — 必須のトークンをどのように識別し、冗長なトークンを削除できるでしょうか?
これらの疑問に対処するために、私たちは適応としてのトークン凝縮 (TCA) を提案します。これは、クラスに無関係なビジュアル トークンを刈り込みながら、クラスに曖昧なトークンをマージすることにより、CLIP に対するトレーニング不要の適応方法です。
CLIP のトークン効率の最初のアプローチとして、TCA はクロスデータセット タスク全体で優れたパフォーマンスを示し、ハイパーパラメーターの依存関係を最小限に抑えながら、最も強力なベースラインと比較して最大 21.4\% の改善を達成しながら、GFLOP を 12.2\% 減って 48.9\% 削減しました。
要約(オリジナル)
Contrastive language-image pre-training (CLIP) has shown remarkable generalization ability in image classification. However, CLIP sometimes encounters performance drops on downstream datasets during zero-shot inference. Test-time adaptation methods attempt to mitigate this by adjusting normalization layers or tuning context prompts with large batch sizes and extensive augmentations; yet, these methods are computationally intensive. This raises an important question: Is there a training-free approach that can efficiently address CLIP’s performance drop in such cases? To explore this, we benchmark token condensation techniques, originally designed to enhance the efficiency of vision transformers, on CLIP zero-shot inference tasks. We observe that although token condensation may compromise in-domain accuracy, it surprisingly enhances CLIP’s performance on certain cross-dataset benchmarks. This motivates two key inquiries: (1) Can token condensation serve as a ‘free-lunch’ solution for CLIP zero-shot inference? (2) What criteria should guide condensation — how can essential tokens be identified and redundant ones eliminated? To address these questions, we propose Token Condensation as Adaptation (TCA), a training-free adaptation method for CLIP by pruning class-irrelevant visual tokens while merging class-ambiguous tokens. As the first approach for CLIP’s token efficiency, TCA demonstrates superior performance across cross-dataset tasks, achieving up to a 21.4\% improvement over the strongest baseline while reducing GFLOPs by 12.2\% to 48.9\%, with minimized hyperparameter dependency.
arxiv情報
著者 | Zixin Wang,Dong Gong,Sen Wang,Zi Huang,Yadan Luo |
発行日 | 2024-11-21 12:17:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google