要約
ビジョンモデルのサイズは、特にVision Transformerの出現以降、ここ数年で飛躍的に大きくなっている。このため、アダプタ層や視覚プロンプトトークンを学習するような、パラメータ効率の良いチューニング手法の開発が進められています。この手法では、事前学習で得られた大部分のパラメータを凍結したまま、ごく一部のモデルパラメータを学習することが可能です。しかし、適切なチューニング手法を設計することは容易ではない。下流のデータセットごとにカスタム設計が必要なことは言うまでもないが、設計選択の長いリストを試す必要があるかもしれない。本論文では、既存のパラメータ効率的な調整法を「プロンプトモジュール」とみなし、大規模ビジョンモデルに対して、各ダウンストリームデータセットに特化したニューラルネットワーク検索アルゴリズムにより、プロンプトモジュールの最適設計を学習する新しいアプローチ、NOAH(Neural prOmpt seArcH)を提案します。20以上の視覚データセットに対する広範な実験により、NOAHが(i)個々のプロンプトモジュールよりも優れていること、(ii)優れた少数ショット学習能力を持つこと、(iii)ドメインジェネライザブルであることを実証しています。コードとモデルは https://github.com/Davidzhangyuanhan/NOAH で公開されている。
要約(オリジナル)
The size of vision models has grown exponentially over the last few years, especially after the emergence of Vision Transformer. This has motivated the development of parameter-efficient tuning methods, such as learning adapter layers or visual prompt tokens, which allow a tiny portion of model parameters to be trained whereas the vast majority obtained from pre-training are frozen. However, designing a proper tuning method is non-trivial: one might need to try out a lengthy list of design choices, not to mention that each downstream dataset often requires custom designs. In this paper, we view the existing parameter-efficient tuning methods as ‘prompt modules’ and propose Neural prOmpt seArcH (NOAH), a novel approach that learns, for large vision models, the optimal design of prompt modules through a neural architecture search algorithm, specifically for each downstream dataset. By conducting extensive experiments on over 20 vision datasets, we demonstrate that NOAH (i) is superior to individual prompt modules, (ii) has a good few-shot learning ability, and (iii) is domain-generalizable. The code and models are available at https://github.com/Davidzhangyuanhan/NOAH.
arxiv情報
著者 | Yuanhan Zhang,Kaiyang Zhou,Ziwei Liu |
発行日 | 2022-06-09 17:59:58+00:00 |
arxivサイト | arxiv_id(pdf) |