要約
大規模データセットで学習した画像合成モデルから知識を転送することは、様々なドメインから生成画像モデルを効率的に学習するための有望な方向性である。先行研究ではGANモデルが研究されているが、我々は生成的知識移転によって視覚変換器を学習するためのレシピを提示する。我々は、画像を視覚的トークンの列として表現する最先端の生成的ビジョン変換器を、自己回帰型または非自己回帰型の変換器に適用する枠組みを構築する。新しい領域に適応するために、プロンプトと呼ばれる学習可能なトークンを画像トークン列に付加するプロンプトチューニングを採用し、我々のタスクのための新しいプロンプトデザインを導入する。視覚タスク適応ベンチマーク~cite{zhai2019large}を含む様々な視覚ドメインにおいて、学習画像の量を変えながら研究を行い、知識移転の有効性と既存作品よりも大幅に優れた画像生成品質を示す。
要約(オリジナル)
Transferring knowledge from an image synthesis model trained on a large dataset is a promising direction for learning generative image models from various domains efficiently. While previous works have studied GAN models, we present a recipe for learning vision transformers by generative knowledge transfer. We base our framework on state-of-the-art generative vision transformers that represent an image as a sequence of visual tokens to the autoregressive or non-autoregressive transformers. To adapt to a new domain, we employ prompt tuning, which prepends learnable tokens called prompt to the image token sequence, and introduce a new prompt design for our task. We study on a variety of visual domains, including visual task adaptation benchmark~\cite{zhai2019large}, with varying amount of training images, and show effectiveness of knowledge transfer and a significantly better image generation quality over existing works.
arxiv情報
著者 | Kihyuk Sohn,Yuan Hao,José Lezama,Luisa Polania,Huiwen Chang,Han Zhang,Irfan Essa,Lu Jiang |
発行日 | 2022-10-03 14:56:05+00:00 |
arxivサイト | arxiv_id(pdf) |