要約
テキストから画像への拡散モデルは高品質な画像を生成するが、画像内の個々のインスタンスに対する制御を提供しない。我々は、テキストから画像への拡散モデルに正確なインスタンスレベルの制御を追加するInstanceDiffusionを紹介する。InstanceDiffusionは、インスタンスごとに自由形式の言語条件をサポートし、単純な単一点、走り書き、バウンディングボックスや複雑なインスタンス分割マスク、およびそれらの組み合わせなど、インスタンス位置を指定する柔軟な方法を可能にする。私たちは、正確なインスタンスレベルの制御を可能にする、テキストから画像へのモデルへの3つの大きな変更を提案します。私たちのUniFusionブロックは、テキストから画像へのモデルのインスタンスレベルの条件を可能にし、ScaleUブロックは画像の忠実度を向上させ、私たちのマルチインスタンスサンプラーは、複数のインスタンスの世代を向上させます。InstanceDiffusionは、各ロケーション条件において、専門的な最先端モデルを大幅に凌駕しています。特に、COCOデータセットにおいて、ボックス入力に対してAP$_{50}^text{box}$を20.4%、マスク入力に対してIoUを25.4%上回る。
要約(オリジナル)
Text-to-image diffusion models produce high quality images but do not offer control over individual instances in the image. We introduce InstanceDiffusion that adds precise instance-level control to text-to-image diffusion models. InstanceDiffusion supports free-form language conditions per instance and allows flexible ways to specify instance locations such as simple single points, scribbles, bounding boxes or intricate instance segmentation masks, and combinations thereof. We propose three major changes to text-to-image models that enable precise instance-level control. Our UniFusion block enables instance-level conditions for text-to-image models, the ScaleU block improves image fidelity, and our Multi-instance Sampler improves generations for multiple instances. InstanceDiffusion significantly surpasses specialized state-of-the-art models for each location condition. Notably, on the COCO dataset, we outperform previous state-of-the-art by 20.4% AP$_{50}^\text{box}$ for box inputs, and 25.4% IoU for mask inputs.
arxiv情報
著者 | Xudong Wang,Trevor Darrell,Sai Saketh Rambhatla,Rohit Girdhar,Ishan Misra |
発行日 | 2024-02-05 18:49:17+00:00 |
arxivサイト | arxiv_id(pdf) |