On the test-time zero-shot generalization of vision-language models: Do we really need prompt learning?

要約

CLIPに代表される大規模な視覚言語モデルの開発は、特にソフトプロンプトチューニングに焦点を当てた、効果的な適応技術に関する研究のきっかけとなった。同時に、ゼロショット汎化を強化するために1つの画像から複数の拡張ビューを利用するテスト時拡張が重要な分野として浮上している。このため、主にテストタイムプロンプトチューニングに研究努力が向けられている。これとは対照的に、我々は、この集中的な訓練手順を必要とせずに、プロンプトベースの手法を凌駕するロバストなMeanShift for Test-time Augmentation (MTA)を導入する。これにより、MTAはスタンドアロンおよびAPIベースのアプリケーションの両方にとって理想的なソリューションとなる。さらに、私たちの方法は、拡張されたビューをフィルタリングするために、いくつかの以前のテスト時間拡張技術で使用されるアドホックなルール(例えば、信頼しきい値)に依存していません。その代わりに、MTAは各ビューの品質評価変数を最適化プロセスに直接組み込みます。このスコアは密度モード探索処理と共同で最適化され、効率的な学習とハイパーパラメータを必要としないアプローチにつながる。我々は15のデータセットを用いて本手法を広範囲にベンチマークし、MTAの優位性と計算効率を実証する。プラグアンドプレイモジュールとしてゼロショットモデルや最先端の少数ショット手法の上に簡単に導入でき、MTAは系統的で一貫した改善を示す。

要約(オリジナル)

The development of large vision-language models, notably CLIP, has catalyzed research into effective adaptation techniques, with a particular focus on soft prompt tuning. Conjointly, test-time augmentation, which utilizes multiple augmented views of a single image to enhance zero-shot generalization, is emerging as a significant area of interest. This has predominantly directed research efforts toward test-time prompt tuning. In contrast, we introduce a robust MeanShift for Test-time Augmentation (MTA), which surpasses prompt-based methods without requiring this intensive training procedure. This positions MTA as an ideal solution for both standalone and API-based applications. Additionally, our method does not rely on ad hoc rules (e.g., confidence threshold) used in some previous test-time augmentation techniques to filter the augmented views. Instead, MTA incorporates a quality assessment variable for each view directly into its optimization process, termed as the inlierness score. This score is jointly optimized with a density mode seeking process, leading to an efficient training- and hyperparameter-free approach. We extensively benchmark our method on 15 datasets and demonstrate MTA’s superiority and computational efficiency. Deployed easily as plug-and-play module on top of zero-shot models and state-of-the-art few-shot methods, MTA shows systematic and consistent improvements.

arxiv情報

著者 Maxime Zanella,Ismail Ben Ayed
発行日 2024-05-03 17:34:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク