要約
人間の指示から画像を編集する方法を提案します。入力画像と、モデルに何をすべきかを伝える書面による指示が与えられると、モデルはこれらの指示に従って画像を編集します。
この問題のトレーニング データを取得するために、言語モデル (GPT-3) とテキストから画像へのモデル (Stable Diffusion) という 2 つの事前トレーニング済みモデルの知識を組み合わせて、画像編集例の大規模なデータセットを生成します。
.
条件付き拡散モデル InstructPix2Pix は、生成されたデータでトレーニングされ、推論時に実際の画像とユーザー作成の指示に一般化されます。
フォワードパスで編集を実行し、サンプルごとの微調整や反転を必要としないため、モデルは画像を数秒ですばやく編集します。
さまざまな入力画像と書面による指示のコレクションに対する説得力のある編集結果を示します。
要約(オリジナル)
We propose a method for editing images from human instructions: given an input image and a written instruction that tells the model what to do, our model follows these instructions to edit the image. To obtain training data for this problem, we combine the knowledge of two large pretrained models — a language model (GPT-3) and a text-to-image model (Stable Diffusion) — to generate a large dataset of image editing examples. Our conditional diffusion model, InstructPix2Pix, is trained on our generated data, and generalizes to real images and user-written instructions at inference time. Since it performs edits in the forward pass and does not require per example fine-tuning or inversion, our model edits images quickly, in a matter of seconds. We show compelling editing results for a diverse collection of input images and written instructions.
arxiv情報
著者 | Tim Brooks,Aleksander Holynski,Alexei A. Efros |
発行日 | 2023-01-18 17:31:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google