要約
最近、大規模な事前トレーニング済み視覚言語モデル (VLM) は、オープンワールドの視覚表現の学習において大きな可能性を示し、効率的な微調整を通じて幅広い下流タスクにわたって顕著なパフォーマンスを発揮します。
この研究では、VLM の微調整に二重学習の概念を革新的に導入しました。つまり、画像が何であるかだけでなく、画像が何でないのかも学習します。
この概念に基づいて、限られたアノテーション付きサンプルのみを使用して、ポジティブとネガティブの両方の観点から VLM のデュアルパス適応を可能にする新しい DualAdapter アプローチを導入します。
推論段階では、DualAdapter はターゲット クラス全体で相補的なポジティブ選択とネガティブ除外を同時に実行することで統合予測を実行し、それによって下流のタスクにおける VLM の全体的な認識精度が向上します。
15 のデータセットにわたる広範な実験結果により、提案された DualAdapter が少数ショット学習タスクとドメイン汎化タスクの両方で既存の最先端の手法を上回り、競争力のある計算効率を達成できることが検証されています。
コードは https://github.com/zhangce01/DualAdapter で入手できます。
要約(オリジナル)
Recently, large-scale pre-trained Vision-Language Models (VLMs) have demonstrated great potential in learning open-world visual representations, and exhibit remarkable performance across a wide range of downstream tasks through efficient fine-tuning. In this work, we innovatively introduce the concept of dual learning into fine-tuning VLMs, i.e., we not only learn what an image is, but also what an image isn’t. Building on this concept, we introduce a novel DualAdapter approach to enable dual-path adaptation of VLMs from both positive and negative perspectives with only limited annotated samples. In the inference stage, our DualAdapter performs unified predictions by simultaneously conducting complementary positive selection and negative exclusion across target classes, thereby enhancing the overall recognition accuracy of VLMs in downstream tasks. Our extensive experimental results across 15 datasets validate that the proposed DualAdapter outperforms existing state-of-the-art methods on both few-shot learning and domain generalization tasks while achieving competitive computational efficiency. Code is available at https://github.com/zhangce01/DualAdapter.
arxiv情報
著者 | Ce Zhang,Simon Stepputtis,Katia Sycara,Yaqi Xie |
発行日 | 2024-03-19 17:59:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google