要約
タイトル:テストタイムファインチューニング不要のパーソナライズされたテキストから画像を生成するInstantBooth
要約:
– 最近、パーソナライズされた画像生成の進歩により、事前に訓練されたテキストから画像モデルが、一連の画像から新しいコンセプトを学ぶことができるようになりました。
– しかし、既存のパーソナライズアプローチには、通常、各コンセプトについてのテストタイムファインチューニングが必要であり、時間がかかり、スケールアップが困難であるという問題があります。
– InstantBoothは、テストタイムファインチューニングなしでテキストにガイドされた画像パーソナライズを実現する、事前に訓練されたテキストから画像モデルをベースに構築された新しいアプローチです。
– 私たちは、いくつかの主要なコンポーネントでこれを実現しています。1つ目は、学習可能な画像エンコーダーを使用して、入力画像の一般的なコンセプトをテキストトークンに変換することです。
– 2つ目に、事前に訓練されたモデルに数個のアダプタレイヤーを導入することで、豊富なビジュアルフィーチャー表現を学習することで、同じアイデンティティの微細な詳細を保持します。
– 同じコンセプトのペア画像を使用せずに、テキスト-イメージペアのみでコンポーネントをトレーニングします。
– DreamBoothやTextual-Inversionのようなテストタイムファインチューニングベースの方法と比較して、言語-画像アラインメント、画像の忠実度、アイデンティティ保持に関する未知のコンセプトで競争力のある結果を生成しながら、100倍高速です。
要約(オリジナル)
Recent advances in personalized image generation allow a pre-trained text-to-image model to learn a new concept from a set of images. However, existing personalization approaches usually require heavy test-time finetuning for each concept, which is time-consuming and difficult to scale. We propose InstantBooth, a novel approach built upon pre-trained text-to-image models that enables instant text-guided image personalization without any test-time finetuning. We achieve this with several major components. First, we learn the general concept of the input images by converting them to a textual token with a learnable image encoder. Second, to keep the fine details of the identity, we learn rich visual feature representation by introducing a few adapter layers to the pre-trained model. We train our components only on text-image pairs without using paired images of the same concept. Compared to test-time finetuning-based methods like DreamBooth and Textual-Inversion, our model can generate competitive results on unseen concepts concerning language-image alignment, image fidelity, and identity preservation while being 100 times faster.
arxiv情報
著者 | Jing Shi,Wei Xiong,Zhe Lin,Hyun Joon Jung |
発行日 | 2023-04-06 23:26:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI