Task Residual for Tuning Vision-Language Models

要約

数十億レベルのデータで事前トレーニングされた大規模な視覚言語モデル (VLM) は、一般的な視覚的表現と幅広い視覚的概念を学習しています。
原則として、十分に学習された VLM の知識構造は、限られたデータで下流のタスクに転送されるときに適切に継承される必要があります。
ただし、VLM に対する既存の効率的な転移学習 (ETL) アプローチのほとんどは、損傷するか、事前の知識に過度に偏っています。たとえば、プロンプト チューニング (PT) は、事前にトレーニングされたテキストベースの分類器を破棄し、アダプター スタイルのチューニング中に新しいものを構築します。
(AT) 事前にトレーニングされた機能に完全に依存しています。
これに対処するために、Task Residual Tuning (TaskRes) という名前の VLM の新しい効率的なチューニング アプローチを提案します。これは、テキスト ベースの分類器で直接実行し、事前トレーニング済みモデルの事前知識とターゲット タスクに関する新しい知識を明示的に分離します。
具体的には、TaskRes は VLM からの元の分類子の重みを凍結したままにし、事前に独立したパラメーターのセットを元のパラメーターの残差として調整することで、ターゲット タスクの新しい分類子を取得します。これにより、信頼できる事前知識の保存と柔軟なタスク固有の知識が可能になります。
探査。
提案された TaskRes はシンプルですが効果的であり、実装に必要な労力を最小限に抑えながら、11 のベンチマーク データセットで以前の ETL メソッド (PT や AT など) よりも大幅に優れています。
コードは https://github.com/geekyutao/TaskRes で入手できます。

要約(オリジナル)

Large-scale vision-language models (VLMs) pre-trained on billion-level data have learned general visual representations and broad visual concepts. In principle, the well-learned knowledge structure of the VLMs should be inherited appropriately when being transferred to downstream tasks with limited data. However, most existing efficient transfer learning (ETL) approaches for VLMs either damage or are excessively biased towards the prior knowledge, e.g., prompt tuning (PT) discards the pre-trained text-based classifier and builds a new one while adapter-style tuning (AT) fully relies on the pre-trained features. To address this, we propose a new efficient tuning approach for VLMs named Task Residual Tuning (TaskRes), which performs directly on the text-based classifier and explicitly decouples the prior knowledge of the pre-trained models and new knowledge regarding a target task. Specifically, TaskRes keeps the original classifier weights from the VLMs frozen and obtains a new classifier for the target task by tuning a set of prior-independent parameters as a residual to the original one, which enables reliable prior knowledge preservation and flexible task-specific knowledge exploration. The proposed TaskRes is simple yet effective, which significantly outperforms previous ETL methods (e.g., PT and AT) on 11 benchmark datasets while requiring minimal effort for the implementation. Our code will be available at https://github.com/geekyutao/TaskRes.

arxiv情報

著者 Tao Yu,Zhihe Lu,Xin Jin,Zhibo Chen,Xinchao Wang
発行日 2022-11-18 15:09:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク