要約
DreamBoothに代表される最近のテキスト画像生成モデルでは、少数の例から被写体に対するエキスパートモデルを微調整することで、被写体に合わせた高度な画像を生成することができるようになり、著しい進歩を遂げています。しかし、この方法では、被写体ごとに新しいモデルを学習する必要があるため、コストがかかる。本論文では、SuTI(Subject-driven Text-to-Image generator)を紹介し、被写体固有の微調整を文脈内の学習で置き換える。SuTIは、新しい被写体に関するいくつかのデモンストレーションがあれば、被写体固有の最適化なしに、異なるシーンにおける被写体の新しい表現を瞬時に生成することができます。SuTIは、膨大な数の被写体に特化したエキスパートモデルによって生成されたデータから、単一の見習いモデルを学習させる、見習い学習によって駆動します。具体的には、インターネット上に存在する数百万の画像クラスタから、それぞれ特定の視覚的主題を中心とした画像クラスタを抽出します。これらのクラスターを利用して、それぞれが異なるテーマに特化した膨大な数のエキスパートモデルを学習させます。そして、見習いモデルであるSuTIは、これらの精巧な専門家の行動を模倣するように学習します。SuTIは、最適化ベースのSoTA手法よりも20倍速く、高品質でカスタマイズされた被写体固有の画像を生成することができます。難易度の高いDreamBenchおよびDreamBench-v2において、我々の人間による評価では、SuTIがInstructPix2Pix、Textual Inversion、Imagic、Prompt2Prompt、Re-Imagen、DreamBoothといった既存のモデルよりも、特に主題とテキストの配置の面で大幅に優れていることがわかりました。
要約(オリジナル)
Recent text-to-image generation models like DreamBooth have made remarkable progress in generating highly customized images of a target subject, by fine-tuning an “expert model” for a given subject from a few examples. However, this process is expensive, since a new expert model must be learned for each subject. In this paper, we present SuTI, a Subject-driven Text-to-Image generator that replaces subject-specific fine tuning with in-context learning. Given a few demonstrations of a new subject, SuTI can instantly generate novel renditions of the subject in different scenes, without any subject-specific optimization. SuTI is powered by apprenticeship learning, where a single apprentice model is learned from data generated by a massive number of subject-specific expert models. Specifically, we mine millions of image clusters from the Internet, each centered around a specific visual subject. We adopt these clusters to train a massive number of expert models, each specializing in a different subject. The apprentice model SuTI then learns to imitate the behavior of these fine-tuned experts. SuTI can generate high-quality and customized subject-specific images 20x faster than optimization-based SoTA methods. On the challenging DreamBench and DreamBench-v2, our human evaluation shows that SuTI significantly outperforms existing models like InstructPix2Pix, Textual Inversion, Imagic, Prompt2Prompt, Re-Imagen and DreamBooth, especially on the subject and text alignment aspects.
arxiv情報
著者 | Wenhu Chen,Hexiang Hu,Yandong Li,Nataniel Ruiz,Xuhui Jia,Ming-Wei Chang,William W. Cohen |
発行日 | 2023-06-02 15:10:13+00:00 |
arxivサイト | arxiv_id(pdf) |