Add-SD: Rational Generation without Manual Reference

要約

拡散モデルは、視覚的な一般化において顕著な優れた能力を発揮してきました。
この成功に基づいて、Add-SD という名前の命令ベースのオブジェクト追加パイプラインを導入しました。これは、オブジェクトを合理的なサイズと位置で現実的なシーンに自動的に挿入します。
レイアウト条件付きメソッドとは異なり、Add-SD は、バウンディング ボックスなどの人的コストがかかる参照ではなく、単純なテキスト プロンプトのみを条件とします。
私たちの仕事は 3 つの側面で貢献しています。1 つは多数の指示された画像ペアを含むデータセットの提案です。
合理的な生成のために拡散モデルを微調整する。
そして合成データを生成して下流のタスクを強化します。
最初の側面では、テキスト命令を含む元の編集済み画像のペアで構成される RemovalDataset の作成が含まれます。ここでは、背景で強力なピクセルの一貫性を維持しながら、元の画像からオブジェクトが削除されています。
これらのデータ ペアは、安定拡散 (SD) モデルを微調整するために使用されます。
その後、事前トレーニングされた Add-SD モデルにより、適切な根拠に基づいて期待されるオブジェクトを画像に挿入できるようになります。
さらに、ダウンストリーム タスク データセット、特にテール クラスの合成インスタンスを大規模に生成して、ロングテールの問題を軽減します。
下流のタスクは、多様性と理論的根拠が強化された充実したデータセットの恩恵を受けます。
LVIS val の実験では、Add-SD がレアクラスでベースラインと比較して 4.3 mAP の改善をもたらすことが実証されています。
コードとモデルは https://github.com/ylingfeng/Add-SD で入手できます。

要約(オリジナル)

Diffusion models have exhibited remarkable prowess in visual generalization. Building on this success, we introduce an instruction-based object addition pipeline, named Add-SD, which automatically inserts objects into realistic scenes with rational sizes and positions. Different from layout-conditioned methods, Add-SD is solely conditioned on simple text prompts rather than any other human-costly references like bounding boxes. Our work contributes in three aspects: proposing a dataset containing numerous instructed image pairs; fine-tuning a diffusion model for rational generation; and generating synthetic data to boost downstream tasks. The first aspect involves creating a RemovalDataset consisting of original-edited image pairs with textual instructions, where an object has been removed from the original image while maintaining strong pixel consistency in the background. These data pairs are then used for fine-tuning the Stable Diffusion (SD) model. Subsequently, the pretrained Add-SD model allows for the insertion of expected objects into an image with good rationale. Additionally, we generate synthetic instances for downstream task datasets at scale, particularly for tail classes, to alleviate the long-tailed problem. Downstream tasks benefit from the enriched dataset with enhanced diversity and rationale. Experiments on LVIS val demonstrate that Add-SD yields an improvement of 4.3 mAP on rare classes over the baseline. Code and models are available at https://github.com/ylingfeng/Add-SD.

arxiv情報

著者 Lingfeng Yang,Xinyu Zhang,Xiang Li,Jinwen Chen,Kun Yao,Gang Zhang,Errui Ding,Lingqiao Liu,Jingdong Wang,Jian Yang
発行日 2024-07-30 17:58:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク