CLIPArTT: Adaptation of CLIP to New Domains at Test Time

要約

CLIP に代表される、事前トレーニング済みのビジョン言語モデル (VLM) は、追加のトレーニングなしでゼロショット分類タスク全体にわたって顕著な適応性を示します。
ただし、ドメインが変更されるとパフォーマンスが低下します。
この研究では、CLIP の完全なテスト時適応 (TTA) アプローチである CLIP Adaptation duRing Test-Time (CLIPArTT) を紹介します。これには、テキスト監視として使用するための推論中の自動テキスト プロンプト構築が含まれます。
私たちの手法では、独自の低侵襲テキスト プロンプト調整プロセスを採用しています。このプロセスでは、複数の予測クラスが 1 つの新しいテキスト プロンプトに集約され、変換的な方法で入力を再分類するための \emph{疑似ラベル} として使用されます。
さらに、VLM の領域における TTA ベンチマーク (TENT など) の標準化の先駆者でもあります。
私たちの調査結果は、追加の変換や新しいトレーニング可能なモジュールを必要とせずに、CLIPArTT が CIFAR-100 などの破損していないデータセット、CIFAR-100-C や ImageNet-C などの破損したデータセット、VisDA-C などの合成データセットにわたって動的にパフォーマンスを向上させることを示しています。

この研究は、新しいテスト時戦略を通じて VLM の適応性を向上させる可能性を強調し、さまざまなデータセットや環境にわたって堅牢なパフォーマンスに関する洞察を提供します。
コードは https://github.com/dosowiechi/CLIPArTT.git にあります。

要約(オリジナル)

Pre-trained vision-language models (VLMs), exemplified by CLIP, demonstrate remarkable adaptability across zero-shot classification tasks without additional training. However, their performance diminishes in the presence of domain shifts. In this study, we introduce CLIP Adaptation duRing Test-Time (CLIPArTT), a fully test-time adaptation (TTA) approach for CLIP, which involves automatic text prompts construction during inference for their use as text supervision. Our method employs a unique, minimally invasive text prompt tuning process, wherein multiple predicted classes are aggregated into a single new text prompt, used as \emph{pseudo label} to re-classify inputs in a transductive manner. Additionally, we pioneer the standardization of TTA benchmarks (e.g., TENT) in the realm of VLMs. Our findings demonstrate that, without requiring additional transformations nor new trainable modules, CLIPArTT enhances performance dynamically across non-corrupted datasets such as CIFAR-100, corrupted datasets like CIFAR-100-C and ImageNet-C, alongside synthetic datasets such as VisDA-C. This research underscores the potential for improving VLMs’ adaptability through novel test-time strategies, offering insights for robust performance across varied datasets and environments. The code can be found at: https://github.com/dosowiechi/CLIPArTT.git

arxiv情報

著者 Gustavo Adolfo Vargas Hakim,David Osowiechi,Mehrdad Noori,Milad Cheraghalikhani,Ali Bahri,Moslem Yazdanpanah,Ismail Ben Ayed,Christian Desrosiers
発行日 2024-11-29 14:27:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク