Taming Encoder for Zero Fine-tuning Image Customization with Text-to-Image Diffusion Models

要約

タイトル:テキストからイメージ拡散モデルによる微調整なしの画像カスタマイズにおけるエンコーダーの制御

要約:

・この論文は、ユーザーによって指定されるカスタマイズされたオブジェクトの画像を生成する方法を提案している。

・先行手法では、オブジェクトごとの最適化パラダイムを採用しているため、長時間の最適化が必要だが、本論文の手法はその必要がない。

・提案手法はエンコーダーを採用し、フィードフォワードパス1回でオブジェクトの高レベル可識別的な意味を捉え、オブジェクト固有の埋め込みを生成する。

・獲得したオブジェクトの埋め込みをテキストからイメージ合成モデルに渡し、生成するために、オブジェクトの埋め込み空間をよく開発されたテキストからイメージモデルに効果的にブレンドするために、さまざまなネットワーク設計とトレーニング戦略を調査し、オブジェクトアイデンティティの保存損失を持つシンプルで効果的な正則化ジョイントトレーニングスキームを提案する。

・また、オブジェクト特定メントを忠実に反映させ、さらに操作と編集能力を維持するために、キャプション生成スキームを提案する。

・トレーニングが完了すると、ネットワークはテキストとオブジェクトの条件付けに応じて、多様なコンテンツとスタイルを生成できる。

・本論文で提案された方法は、テスト時の最適化を必要とせず、魅力的な出力品質、外観の多様性、オブジェクトの忠実度を備えた画像を合成することができる。

・また、モデルを分析するために体系的な研究が行われ、今後の研究に向けた示唆を提供している。

要約(オリジナル)

This paper proposes a method for generating images of customized objects specified by users. The method is based on a general framework that bypasses the lengthy optimization required by previous approaches, which often employ a per-object optimization paradigm. Our framework adopts an encoder to capture high-level identifiable semantics of objects, producing an object-specific embedding with only a single feed-forward pass. The acquired object embedding is then passed to a text-to-image synthesis model for subsequent generation. To effectively blend a object-aware embedding space into a well developed text-to-image model under the same generation context, we investigate different network designs and training strategies, and propose a simple yet effective regularized joint training scheme with an object identity preservation loss. Additionally, we propose a caption generation scheme that become a critical piece in fostering object specific embedding faithfully reflected into the generation process, while keeping control and editing abilities. Once trained, the network is able to produce diverse content and styles, conditioned on both texts and objects. We demonstrate through experiments that our proposed method is able to synthesize images with compelling output quality, appearance diversity, and object fidelity, without the need of test-time optimization. Systematic studies are also conducted to analyze our models, providing insights for future work.

arxiv情報

著者 Xuhui Jia,Yang Zhao,Kelvin C. K. Chan,Yandong Li,Han Zhang,Boqing Gong,Tingbo Hou,Huisheng Wang,Yu-Chuan Su
発行日 2023-04-05 17:59:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク