Noise-Tolerant Unsupervised Adapter for Vision-Language Models

要約

大規模ビジョン言語モデルの最近の進歩により、さまざまなゼロショット画像分類タスクで非常に優れたパフォーマンスが達成されました。
これまでの研究では、数ショットのラベル付きターゲット サンプルを導入することで大幅な改善が示されていますが、依然としてターゲット サンプルのラベル付けが必要であり、さまざまな視覚認識タスクを処理する際のスケーラビリティが大幅に低下します。
私たちは、数ショットのラベルなしターゲット サンプルで優れたターゲット モデルを学習できるノイズ耐性の教師なしアダプターである NtUA を設計します。
NtUA は、キーと値のペアとして少数ショットのラベルなしターゲット サンプルの視覚的特徴と予測された疑似ラベルを定式化するキーと値のキャッシュとして機能します。
2 つの相補的なデザインで構成されています。
1 つ目は、予測の信頼度に応じてキーと値のペアに重みを付けることで、擬似ラベル ノイズに対抗する適応型キャッシュ形成です。
2 つ目は擬似ラベルの修正です。これは、大規模なビジョン言語モデルからの知識の蒸留を活用して、ペアの値 (つまり、擬似ラベル) とキャッシュの重みの両方を修正します。
広範な実験により、NtUA が広く採用されている複数のベンチマークにわたって一貫して優れたパフォーマンスを達成することが示されています。

要約(オリジナル)

Recent advances in large-scale vision-language models have achieved very impressive performance in various zero-shot image classification tasks. While prior studies have demonstrated significant improvements by introducing few-shot labelled target samples, they still require labelling of target samples, which greatly degrades their scalability while handling various visual recognition tasks. We design NtUA, a Noise-tolerant Unsupervised Adapter that allows learning superior target models with few-shot unlabelled target samples. NtUA works as a key-value cache that formulates visual features and predicted pseudo-labels of the few-shot unlabelled target samples as key-value pairs. It consists of two complementary designs. The first is adaptive cache formation that combats pseudo-label noises by weighting the key-value pairs according to their prediction confidence. The second is pseudo-label rectification, which corrects both pair values (i.e., pseudo-labels) and cache weights by leveraging knowledge distillation from large-scale vision language models. Extensive experiments show that NtUA achieves superior performance consistently across multiple widely adopted benchmarks.

arxiv情報

著者 Eman Ali,Dayan Guan,Shijian Lu,Abdulmotaleb Elsaddik
発行日 2023-09-26 13:35:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク