Shielded Diffusion: Generating Novel and Diverse Images using Sparse Repellency

要約

テキスト間拡散モデルの採用は、信頼性に対する懸念を引き起こし、キャリブレーション、公平性、または計算効率などのさまざまなメトリックのレンズの下で精査を引き起こします。
この作業では、これらのモデルを展開するときに発生する2つの問題に焦点を当てています。画像を促すときの多様性の欠如と、トレーニングセットから画像を再現する傾向です。
両方の問題を解決するために、リファレンスセットの外側にある画像に着地するために、前処理された拡散モデルのサンプリングされた軌跡を共有する方法を提案します。
これは、パスがシールドされた参照セットの画像に近すぎると予想される場合はいつでもトリガーされる、生成軌道全体に拡散SDEに忌避条件を追加することで達成します。
私たちの方法は、ほとんどの場合、これらの忌避項がゼロで不活性であり、さらには世代の軌跡の終わりに向かっているという意味でまばらです。
スパースの忌避のための呪文という名前の私たちの方法は、保護された画像を含む静的参照セットで使用するか、各タイムステップのセットをバッチ内で同時に生成した予想画像と以前に生成されたバッチの画像で更新することにより、動的に動的に使用できます。
人気のある拡散モデルに呪文を追加すると、FIDにわずかに影響を与える一方で、多様性が向上し、他の最近のトレーニングなしの多様性方法よりも比較的優れたパフォーマンスを発揮することが示されています。
また、Imagenetのすべての1.2m画像を保護セットと見なすことにより、Spellが保護された画像の非常に大きなセットから保護された画像から離れて保護された世代を保証できる方法を示します。

要約(オリジナル)

The adoption of text-to-image diffusion models raises concerns over reliability, drawing scrutiny under the lens of various metrics like calibration, fairness, or compute efficiency. We focus in this work on two issues that arise when deploying these models: a lack of diversity when prompting images, and a tendency to recreate images from the training set. To solve both problems, we propose a method that coaxes the sampled trajectories of pretrained diffusion models to land on images that fall outside of a reference set. We achieve this by adding repellency terms to the diffusion SDE throughout the generation trajectory, which are triggered whenever the path is expected to land too closely to an image in the shielded reference set. Our method is sparse in the sense that these repellency terms are zero and inactive most of the time, and even more so towards the end of the generation trajectory. Our method, named SPELL for sparse repellency, can be used either with a static reference set that contains protected images, or dynamically, by updating the set at each timestep with the expected images concurrently generated within a batch, and with the images of previously generated batches. We show that adding SPELL to popular diffusion models improves their diversity while impacting their FID only marginally, and performs comparatively better than other recent training-free diversity methods. We also demonstrate how SPELL can ensure a shielded generation away from a very large set of protected images by considering all 1.2M images from ImageNet as the protected set.

arxiv情報

著者 Michael Kirchhof,James Thornton,Louis Béthune,Pierre Ablin,Eugene Ndiaye,Marco Cuturi
発行日 2025-05-28 17:28:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, stat.ML パーマリンク