Visual Query Tuning: Towards Effective Usage of Intermediate Representations for Parameter and Memory Efficient Transfer Learning

要約

タイトル: ビジュアルクエリチューニング:中間表現の効率的な利用に向けたパラメーターとメモリー効率の高い転移学習へ

要約:
– 事前にトレーニング済みのモデルの中間特徴は、モデルバックボーンがフリーズされていても、下流のタスクで正確な予測を行うために有益であることが示されている。
– 中間特徴が巨大なので、それらをどのように活用するかが課題となっている。
– 我々は、ビジョン・トランスフォーマーの中間特徴を集約するシンプルで効果的なアプローチであるビジュアルクエリチューニング(VQT)を提案している。各層に学習可能な「クエリ」トークンをいくつか導入することで、VQTはトランスフォーマーの内部動作を利用して各層の豊富な中間特徴を「要約」する。これらの特徴を使用して、下流タスクの予測ヘッドをトレーニングすることができる。
– VQTは、中間特徴をそのまま保持し、それらを組み合わせることを学習するだけなので、多くの他のパラメーター効率的なファインチューニングアプローチに比べてトレーニング時のメモリー効率に優れている。これにより、特徴を適応して学習するアプローチとの補完的な役割を提案している。
– 実験的に、VQTは中間特徴を転移学習に利用する最先端アプローチを常に上回り、多くの場合フルファインチューニングよりも優れていることが分かった。特徴を適応するパラメーター効率的なアプローチに比べて、VQTはメモリ制限下でより高い精度を得ることができることも示している。
– 最も重要なことは、VQTはこれらのアプローチと互換性があるため、転移学習をさらに向上させるためのシンプルなアドオンとして使用することができる。

要約(オリジナル)

Intermediate features of a pre-trained model have been shown informative for making accurate predictions on downstream tasks, even if the model backbone is kept frozen. The key challenge is how to utilize these intermediate features given their gigantic amount. We propose visual query tuning (VQT), a simple yet effective approach to aggregate intermediate features of Vision Transformers. Through introducing a handful of learnable “query” tokens to each layer, VQT leverages the inner workings of Transformers to “summarize” rich intermediate features of each layer, which can then be used to train the prediction heads of downstream tasks. As VQT keeps the intermediate features intact and only learns to combine them, it enjoys memory efficiency in training, compared to many other parameter-efficient fine-tuning approaches that learn to adapt features and need back-propagation through the entire backbone. This also suggests the complementary role between VQT and those approaches in transfer learning. Empirically, VQT consistently surpasses the state-of-the-art approach that utilizes intermediate features for transfer learning and outperforms full fine-tuning in many cases. Compared to parameter-efficient approaches that adapt features, VQT achieves much higher accuracy under memory constraints. Most importantly, VQT is compatible with these approaches to attain even higher accuracy, making it a simple add-on to further boost transfer learning.

arxiv情報

著者 Cheng-Hao Tu,Zheda Mai,Wei-Lun Chao
発行日 2023-04-27 00:56:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク