Localized Latent Updates for Fine-Tuning Vision-Language Models

要約

CLIP のような大規模な事前トレーニング済みのビジョン言語モデルは、多くのタスクに対して印象的な一般化機能を示していますが、特定のデータセットでのパフォーマンスを向上させるために、それらを微調整する必要があることがよくあります。
その場合、モデルの更新が高速であり、従来の微調整アプローチでよくあるように、データセット外のデータに対するモデルの機能が失われないことが望ましいです。
この作業では、見られるデータポイントに近いモデル予測のみを更新する軽量アダプターを提案します。
この比較的単純なアプローチの有効性と速度を、少数ショット学習のコンテキストで示します。トレーニング中に表示されるクラスと表示されないクラスの両方での結果は、最先端のものと同等またはそれ以上です。

要約(オリジナル)

Although massive pre-trained vision-language models like CLIP show impressive generalization capabilities for many tasks, still it often remains necessary to fine-tune them for improved performance on specific datasets. When doing so, it is desirable that updating the model is fast and that the model does not lose its capabilities on data outside of the dataset, as is often the case with classical fine-tuning approaches. In this work we suggest a lightweight adapter, that only updates the models predictions close to seen datapoints. We demonstrate the effectiveness and speed of this relatively simple approach in the context of few-shot learning, where our results both on classes seen and unseen during training are comparable with or improve on the state of the art.

arxiv情報

著者 Moritz Ibing,Isaak Lim,Leif Kobbelt
発行日 2022-12-13 13:15:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク