A Survey of Low-shot Vision-Language Model Adaptation via Representer Theorem

要約

事前トレーニングされた視覚言語基礎モデルの出現は、ゼロ/少数ショット (つまり、ローショット) 画像認識の分野に革命をもたらしました。
限られたトレーニング データの条件下で取り組むべき重要な課題は、パラメータ効率の高い方法で事前トレーニング済みの視覚言語モデルを微調整する方法です。
これまで、この課題に取り組む多くのアプローチが提案されてきました。
同時に、これらの研究を要約するいくつかの調査論文も出版されています。
しかし、既存の手法を統合し、その性質を特定し、詳細な比較をサポートするための統一された計算フレームワークがまだ不足しています。
そのため、この調査論文では、まず代表者定理の観点から統一的な計算フレームワークを提案し、次にこのフレームワークを特殊化することで既存の手法の多くを導き出します。
その後、既存の手法間の違いや関係を明らかにするために比較分析が行われます。
分析に基づいて、既存の作品を改善するためのいくつかの可能な変形が提示されます。
デモンストレーションとして、カーネル ヒルベルト空間 (RKHS) の再現における表現者間のクラス間相関をモデル化することで既存の手法を拡張します。これは、カーネル リッジ回帰の閉形式解を利用することによって実装されます。
この手法の有効性を検証するために、11 のデータセットに対する広範な実験が行われています。
この文書の終わりに向けて、その限界について説明し、さらなる研究の方向性を示します。

要約(オリジナル)

The advent of pre-trained vision-language foundation models has revolutionized the field of zero/few-shot (i.e., low-shot) image recognition. The key challenge to address under the condition of limited training data is how to fine-tune pre-trained vision-language models in a parameter-efficient manner. Previously, numerous approaches tackling this challenge have been proposed. Meantime, a few survey papers are also published to summarize these works. However, there still lacks a unified computational framework to integrate existing methods together, identify their nature and support in-depth comparison. As such, this survey paper first proposes a unified computational framework from the perspective of Representer Theorem and then derives many of the existing methods by specializing this framework. Thereafter, a comparative analysis is conducted to uncover the differences and relationships between existing methods. Based on the analyses, some possible variants to improve the existing works are presented. As a demonstration, we extend existing methods by modeling inter-class correlation between representers in reproducing kernel Hilbert space (RKHS), which is implemented by exploiting the closed-form solution of kernel ridge regression. Extensive experiments on 11 datasets are conducted to validate the effectiveness of this method. Toward the end of this paper, we discuss the limitations and provide further research directions.

arxiv情報

著者 Kun Ding,Ying Wang,Gaofeng Meng,Shiming Xiang
発行日 2024-10-15 15:22:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク