Visual Query Tuning: Towards Effective Usage of Intermediate Representations for Parameter and Memory Efficient Transfer Learning

要約

学習済みモデルの中間的な特徴は、モデルのバックボーンを凍結したままでも、下流タスクの正確な予測に有用であることが示されている。しかし、これらの中間特徴量は膨大な量であるため、どのように活用するかが重要な課題である。我々は、Visual Query Tuning (VQT)を提案する。これは、Vision Transformerの中間的な特徴を集約するためのシンプルかつ効果的なアプローチである。VQTは各レイヤーに学習可能なクエリトークンを導入することにより、Transformerの内部構造を利用して、各レイヤーの豊富な中間特徴を「要約」し、下流のタスクの予測ヘッドを学習するために利用することが可能である。VQTは中間的な特徴を保持し、それらを組み合わせることのみを学習するため、特徴を適応させるためにバックプロパゲーションを必要とする他の多くのパラメータ効率的な微調整アプローチと比較して、学習におけるメモリ効率を享受することが可能である。このことは、VQTが転移学習において、これらのアプローチと補完的な役割を果たすことも示唆している。経験的には、VQTは常に中間的な特徴を利用して転移学習を行う最先端のアプローチを上回り、多くのケースで完全な微調整を上回った。特徴量を適応させるパラメータ効率の良いアプローチと比較して、VQTはメモリ制約の下ではるかに高い精度を達成する。最も重要なことは、VQTはこれらのアプローチと互換性があり、より高い精度を達成することができるため、転移学習をさらに高めるための簡単なアドオンとなることです。

要約(オリジナル)

Intermediate features of a pre-trained model have been shown informative for making accurate predictions on downstream tasks, even if the model backbone is kept frozen. The key challenge is how to utilize these intermediate features given their gigantic amount. We propose visual query tuning (VQT), a simple yet effective approach to aggregate intermediate features of Vision Transformers. Through introducing a handful of learnable “query” tokens to each layer, VQT leverages the inner workings of Transformers to “summarize” rich intermediate features of each layer, which can then be used to train the prediction heads of downstream tasks. As VQT keeps the intermediate features intact and only learns to combine them, it enjoys memory efficiency in training, compared to many other parameter-efficient fine-tuning approaches that learn to adapt features and need back-propagation through the entire backbone. This also suggests the complementary role between VQT and those approaches in transfer learning. Empirically, VQT consistently surpasses the state-of-the-art approach that utilizes intermediate features for transfer learning and outperforms full fine-tuning in many cases. Compared to parameter-efficient approaches that adapt features, VQT achieves much higher accuracy under memory constraints. Most importantly, VQT is compatible with these approaches to attain even higher accuracy, making it a simple add-on to further boost transfer learning.

arxiv情報

著者 Cheng-Hao Tu,Zheda Mai,Wei-Lun Chao
発行日 2022-12-06 18:39:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク