Calibrated Cache Model for Few-Shot Vision-Language Model Adaptation

要約

キャッシュベースのアプローチは、ビジョン言語モデル (VLM) を適応させる上で効果的かつ効率的であるという点で際立っています。
それにもかかわらず、既存のキャッシュ モデルは 3 つの重要な側面を見落としています。
1) 事前トレーニングされた VLM は主に画像とテキストの類似性に関して最適化されており、画像間の類似性の重要性が無視されているため、事前トレーニングと適応の間にギャップが生じます。
2) 現在のキャッシュ モデルは Nadaraya-Watson (N-W) 推定器に基づいており、重み関数を構築する際にトレーニング サンプル間の複雑な関係を無視します。
3) 限られたサンプルの条件下では、キャッシュ モデルによって生成されたロジットは不確実性が高く、信頼性を考慮せずにこれらのロジットを直接使用すると問題が発生する可能性があります。
この研究では、上記の課題に対処することを目的とした 3 つのキャリブレーション モジュールを紹介します。
類似性キャリブレーションは、ラベルのない画像を使用して画像間の類似性を調整します。
CLIP の事前トレーニングされた画像エンコーダーの上に残余接続を備えた学習可能な投影レイヤーを追加し、自己教師によるコントラスト損失を最小限に抑えることでパラメーターを最適化します。
重みキャリブレーションでは、重み関数に精度行列を導入してトレーニング サンプル間の関係を適切にモデル化し、既存のキャッシュ モデルをガウス過程 (GP) リグレッサーに変換します。これは、N-W 推定器よりも正確である可能性があります。
信頼度キャリブレーションは、GP 回帰によって計算された予測分散を利用して、キャッシュ モデルのロジットを動的に再スケーリングし、キャッシュ モデルの出力が信頼レベルに基づいて適切に調整されるようにします。
さらに、GP の高度な複雑性を軽減するために、グループベースの学習戦略をさらに提案します。
上記の設計を統合して、トレーニング不要のバリアントとトレーニングが必要なバリアントの両方を提案します。
11 個の少数ショット分類データセットに対する広範な実験により、提案された方法が最先端のパフォーマンスを達成できることが検証されました。

要約(オリジナル)

Cache-based approaches stand out as both effective and efficient for adapting vision-language models (VLMs). Nonetheless, the existing cache model overlooks three crucial aspects. 1) Pre-trained VLMs are mainly optimized for image-text similarity, neglecting the importance of image-image similarity, leading to a gap between pre-training and adaptation. 2) The current cache model is based on the Nadaraya-Watson (N-W) estimator, which disregards the intricate relationships among training samples while constructing weight function. 3) Under the condition of limited samples, the logits generated by cache model are of high uncertainty, directly using these logits without accounting for the confidence could be problematic. This work presents three calibration modules aimed at addressing the above challenges. Similarity Calibration refines the image-image similarity by using unlabeled images. We add a learnable projection layer with residual connection on top of the pre-trained image encoder of CLIP and optimize the parameters by minimizing self-supervised contrastive loss. Weight Calibration introduces a precision matrix into the weight function to adequately model the relation between training samples, transforming the existing cache model to a Gaussian Process (GP) regressor, which could be more accurate than N-W estimator. Confidence Calibration leverages the predictive variances computed by GP Regression to dynamically re-scale the logits of cache model, ensuring that the cache model’s outputs are appropriately adjusted based on their confidence levels. Besides, to reduce the high complexity of GPs, we further propose a group-based learning strategy. Integrating the above designs, we propose both training-free and training-required variants. Extensive experiments on 11 few-shot classification datasets validate that the proposed methods can achieve state-of-the-art performance.

arxiv情報

著者 Kun Ding,Qiang Yu,Haojian Zhang,Gaofeng Meng,Shiming Xiang
発行日 2024-10-11 15:12:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク