Subject-driven Text-to-Image Generation via Apprenticeship Learning

要約

タイトル:アプレンティス・ラーニングを用いた主体駆動型テキストから画像生成

要約:

– これまでのtext-to-image generationモデル(DreamBoothなど)は、少数の例から専門家モデルを微調整することで、ターゲット対象の高度にカスタマイズされた画像を生成してきた。
– しかしこのプロセスは費用がかかるため、各対象について新しい専門家モデルを学習する必要がある。
– 本研究では、主体固有の微調整に代わり、コンテキストに即した学習を行うSubject-driven Text-to-Image (SuTI)ジェネレータを提案する。
– 新しい主体のデモをいくつか与えることで、SuTIは主体固有の最適化なしに、さまざまなシーンで新しいレンダリングを瞬時に生成できる。
– SuTIは、大量の主体固有の専門家モデルから生成されたデータに基づいて、単一の見習いモデルによって動作するアプレンティス・ラーニングによって機能する。
– 人間の評価によると、SuTIは従来の手法(InstructPix2Pix、Textual Inversion、Imagic、Prompt2Prompt、Re-Imagen)の中で最も優れた精度を示し、最新手法であるDreamBoothと同等の性能を発揮した。また、SuTIはSoTA手法よりも20倍高速で、カスタマイズされた主体固有の画像を生成できる。

要約(オリジナル)

Recent text-to-image generation models like DreamBooth have made remarkable progress in generating highly customized images of a target subject, by fine-tuning an “expert model” for a given subject from a few examples. However, this process is expensive, since a new expert model must be learned for each subject. In this paper, we present SuTI, a Subject-driven Text-to-Image generator that replaces subject-specific fine tuning with \emph{in-context} learning. Given a few demonstrations of a new subject, SuTI can instantly generate novel renditions of the subject in different scenes, without any subject-specific optimization. SuTI is powered by {\em apprenticeship learning}, where a single apprentice model is learned from data generated by massive amount of subject-specific expert models. Specifically, we mine millions of image clusters from the Internet, each centered around a specific visual subject. We adopt these clusters to train massive amount of expert models specialized on different subjects. The apprentice model SuTI then learns to mimic the behavior of these experts through the proposed apprenticeship learning algorithm. SuTI can generate high-quality and customized subject-specific images 20x faster than optimization-based SoTA methods. On the challenging DreamBench and DreamBench-v2, our human evaluation shows that SuTI can significantly outperform existing approaches like InstructPix2Pix, Textual Inversion, Imagic, Prompt2Prompt, Re-Imagen while performing on par with DreamBooth.

arxiv情報

著者 Wenhu Chen,Hexiang Hu,Yandong Li,Nataniel Ruiz,Xuhui Jia,Ming-Wei Chang,William W. Cohen
発行日 2023-04-14 17:36:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク