Frustratingly Easy Test-Time Adaptation of Vision-Language Models

要約

視覚言語モデルは、任意の意味カテゴリをシームレスに識別しますが、それでも、困難な例が提示された場合、一般化が不十分です。
このため、最近、エピソード テスト時間適応 (TTA) 戦略が、単一のラベルなしイメージの存在下で VLM を適応させる強力な技術として登場しました。
TTA に関する最近の文献は、限界エントロピー最小化によるプロンプト チューニングのパラダイムによって支配されています。これは、オンライン バックプロパゲーションに依存しているため、必然的にメモリが増加する一方で推論が遅くなります。
この研究では、このアプローチの特性を理論的に調査し、その中に驚くほど強力な TTA 手法が眠っていて隠されていることを明らかにします。
私たちはこのアプローチを ZERO (温度「ゼロ」の TTA) と呼びます。その設計は信じられないほど効果的であると同時にイライラするほど単純です。つまり、N 回増加し、予測し、最も信頼性の高い予測を保持し、ソフトマックス温度をゼロに設定した後に周辺化します。
注目すべきことに、ZERO では、ビジョン エンコーダを通過する単一のバッチ化された前方パスのみが必要であり、後方パスは必要ありません。
私たちは、文献で確立された実験プロトコルに従ってアプローチを徹底的に評価し、ZEROがW.R.T.を大幅に上回るか、それに匹敵することを示しました。
標準的なテスト時プロンプト チューニングよりもほぼ 10 倍高速で、13 倍メモリに優しいと同時に、最先端の機能を備えています。
ZERO は、そのシンプルさと比較的無視できる計算量のおかげで、この分野での将来の研究のための強力なベースラインとして機能します。
コードは https://github.com/FarinaMatteo/zero で入手できます。

要約(オリジナル)

Vision-Language Models seamlessly discriminate among arbitrary semantic categories, yet they still suffer from poor generalization when presented with challenging examples. For this reason, Episodic Test-Time Adaptation (TTA) strategies have recently emerged as powerful techniques to adapt VLMs in the presence of a single unlabeled image. The recent literature on TTA is dominated by the paradigm of prompt tuning by Marginal Entropy Minimization, which, relying on online backpropagation, inevitably slows down inference while increasing memory. In this work, we theoretically investigate the properties of this approach and unveil that a surprisingly strong TTA method lies dormant and hidden within it. We term this approach ZERO (TTA with ‘zero’ temperature), whose design is both incredibly effective and frustratingly simple: augment N times, predict, retain the most confident predictions, and marginalize after setting the Softmax temperature to zero. Remarkably, ZERO requires a single batched forward pass through the vision encoder only and no backward passes. We thoroughly evaluate our approach following the experimental protocol established in the literature and show that ZERO largely surpasses or compares favorably w.r.t. the state-of-the-art while being almost 10x faster and 13x more memory-friendly than standard Test-Time Prompt Tuning. Thanks to its simplicity and comparatively negligible computation, ZERO can serve as a strong baseline for future work in this field. The code is available at https://github.com/FarinaMatteo/zero.

arxiv情報

著者 Matteo Farina,Gianni Franchi,Giovanni Iacca,Massimiliano Mancini,Elisa Ricci
発行日 2024-05-28 16:24:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク