要約
テキストから画像への拡散モデルは印象的な結果を生み出しますが、きめ細かい制御を望むアーティストにとってはイライラするツールです。
たとえば、一般的な使用例は、新しいコンテキストで特定のインスタンスのイメージを作成すること、つまり「アイデンティティを保持した生成」です。
この設定は、他の多くのタスク (再照明など) と同様に、画像 + テキスト条件付き生成モデルに自然に適合します。
ただし、このようなモデルを直接トレーニングするには、高品質のペア データが不十分です。
私たちは、事前にトレーニングされたテキストから画像へのモデルを使用して、テキスト条件付きの画像から画像へのタスク用の独自のデータセットを生成する方法である拡散自己蒸留を提案します。
まず、テキストから画像への拡散モデルのインコンテキスト生成機能を利用して画像のグリッドを作成し、視覚言語モデルの助けを借りて大規模なペアのデータセットをキュレーションします。
次に、厳選されたペアのデータセットを使用して、テキストから画像へのモデルをテキスト + 画像から画像へのモデルに微調整します。
我々は、拡散自己蒸留が既存のゼロショット手法を上回っており、テスト時間の最適化を必要とせずに、広範囲のアイデンティティ保存生成タスクにおいてインスタンスごとの調整手法と競合できることを実証します。
要約(オリジナル)
Text-to-image diffusion models produce impressive results but are frustrating tools for artists who desire fine-grained control. For example, a common use case is to create images of a specific instance in novel contexts, i.e., ‘identity-preserving generation’. This setting, along with many other tasks (e.g., relighting), is a natural fit for image+text-conditional generative models. However, there is insufficient high-quality paired data to train such a model directly. We propose Diffusion Self-Distillation, a method for using a pre-trained text-to-image model to generate its own dataset for text-conditioned image-to-image tasks. We first leverage a text-to-image diffusion model’s in-context generation ability to create grids of images and curate a large paired dataset with the help of a Visual-Language Model. We then fine-tune the text-to-image model into a text+image-to-image model using the curated paired dataset. We demonstrate that Diffusion Self-Distillation outperforms existing zero-shot methods and is competitive with per-instance tuning techniques on a wide range of identity-preservation generation tasks, without requiring test-time optimization.
arxiv情報
著者 | Shengqu Cai,Eric Chan,Yunzhi Zhang,Leonidas Guibas,Jiajun Wu,Gordon Wetzstein |
発行日 | 2024-11-27 18:58:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google