要約
最近の研究では、パラメータ効率化転送学習(PETL)と呼ばれる、少数のパラメータのみを更新することにより、事前学習済みの視覚変換器(ViT)を適応させ、記憶効率を改善する可能性が検討されている。現在のPETL手法では、0.5%のパラメータを調整することで、ViTを下流タスクに適応させ、完全な微調整よりもさらに優れた性能を実現できることが示されている。本論文では、実アプリケーションにおける極端なストレージの制約に対応するため、PETLの効率化をさらに推進することを目的とする。そのために、各ViTの重みを1つの3次元テンソルにテンソル化し、その増分を軽量要素に分解して保存するテンソル化-分解フレームワークを提案する。ファクターチューニングでは、ファクターのみを更新・保存する必要があり、ファクターチューニング(FacT)と呼ばれる。VTAB-1Kベンチマークにおいて、本手法はPETL手法の最先端であるNOAHと同程度の性能を示し、5倍のパラメータ効率を達成しました。また、8K(ViTのパラメータの0.01%)の学習可能なパラメータしか使用しない極小版も発表するが、完全な微調整やVPTやBitFitなど他の多くのPETL手法より優れた性能を発揮する。また、FacTは、少ないパラメータで、すべてのPETLベースラインよりも優れており、低データ領域での強力な能力を実証しています。
要約(オリジナル)
Recent work has explored the potential to adapt a pre-trained vision transformer (ViT) by updating only a few parameters so as to improve storage efficiency, called parameter-efficient transfer learning (PETL). Current PETL methods have shown that by tuning only 0.5% of the parameters, ViT can be adapted to downstream tasks with even better performance than full fine-tuning. In this paper, we aim to further promote the efficiency of PETL to meet the extreme storage constraint in real-world applications. To this end, we propose a tensorization-decomposition framework to store the weight increments, in which the weights of each ViT are tensorized into a single 3D tensor, and their increments are then decomposed into lightweight factors. In the fine-tuning process, only the factors need to be updated and stored, termed Factor-Tuning (FacT). On VTAB-1K benchmark, our method performs on par with NOAH, the state-of-the-art PETL method, while being 5x more parameter-efficient. We also present a tiny version that only uses 8K (0.01% of ViT’s parameters) trainable parameters but outperforms full fine-tuning and many other PETL methods such as VPT and BitFit. In few-shot settings, FacT also beats all PETL baselines using the fewest parameters, demonstrating its strong capability in the low-data regime.
arxiv情報
著者 | Shibo Jie,Zhi-Hong Deng |
発行日 | 2022-12-06 17:18:33+00:00 |
arxivサイト | arxiv_id(pdf) |