Diverse Data Augmentation with Diffusions for Effective Test-time Prompt Tuning

要約

近年、迅速なチューニングの恩恵を受けて、CLIP などの事前トレーニング済みビジョン言語モデルが、下流の汎用タスクで有望なパフォーマンスを発揮することが実証されています。
このペーパーでは、テスト時プロンプト チューニング (TPT) として知られる、目に見えない新しいドメインから各テスト サンプルの適応プロンプトをオンザフライで学習する特定の設定に焦点を当てます。
既存の TPT 手法は通常、データの拡張と信頼性の選択に依存しています。
しかし、従来のデータ拡張技術(ランダムにサイズ変更された作物など)ではデータの多様性が欠如しており、エントロピーに基づいた信頼度選択だけでは予測の忠実性を保証するのに十分ではありません。
これらの問題に対処するために、私たちは DiffTPT と呼ばれる新しい TPT 手法を提案します。この手法は、事前トレーニングされた拡散モデルを活用して、多様で有益な新しいデータを生成します。
具体的には、従来の手法と事前学習された安定拡散の両方による拡張データを組み込んで、それぞれのメリットを生かし、未知の新しいテストデータに適応するモデルの能力を向上させます。
さらに、生成されたデータの予測忠実度を保証するために、コサイン類似度に基づくフィルタリング手法を導入し、単一のテストサンプルとの類似性が高い生成データを選択します。
分布シフトと目に見えないカテゴリを含むテスト データセットでの実験では、DiffTPT が最先端の TPT 手法と比較してゼロショット精度を平均 5.13\% 向上させることが実証されました。
私たちのコードとモデルは公開されます。

要約(オリジナル)

Benefiting from prompt tuning, recent years have witnessed the promising performance of pre-trained vision-language models, e.g., CLIP, on versatile downstream tasks. In this paper, we focus on a particular setting of learning adaptive prompts on the fly for each test sample from an unseen new domain, which is known as test-time prompt tuning (TPT). Existing TPT methods typically rely on data augmentation and confidence selection. However, conventional data augmentation techniques, e.g., random resized crops, suffers from the lack of data diversity, while entropy-based confidence selection alone is not sufficient to guarantee prediction fidelity. To address these issues, we propose a novel TPT method, named DiffTPT, which leverages pre-trained diffusion models to generate diverse and informative new data. Specifically, we incorporate augmented data by both conventional method and pre-trained stable diffusion to exploit their respective merits, improving the models ability to adapt to unknown new test data. Moreover, to ensure the prediction fidelity of generated data, we introduce a cosine similarity-based filtration technique to select the generated data with higher similarity to the single test sample. Our experiments on test datasets with distribution shifts and unseen categories demonstrate that DiffTPT improves the zero-shot accuracy by an average of 5.13\% compared to the state-of-the-art TPT method. Our code and models will be publicly released.

arxiv情報

著者 Chun-Mei Feng,Kai Yu,Yong Liu,Salman Khan,Wangmeng Zuo
発行日 2023-08-11 09:36:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク