要約
ほとんどの拡散モデルの推論パイプラインにはバイアスがあります。
このバイアスは、信号リークの分布がノイズ分布から逸脱することで発生し、トレーニング プロセスと推論プロセスの間に不一致が生じます。
この信号漏洩バイアスは、モデルが特定のスタイルに調整されている場合に特に顕著であり、最適化されていないスタイル マッチングが発生することを示します。
最近の研究では、トレーニング中の信号漏洩を回避しようとしています。
代わりに、既存の拡散モデルでこの信号漏洩バイアスを利用して、生成された画像をより詳細に制御できるようにする方法を示します。
これにより、より多様な明るさの画像や、希望のスタイルや色に合わせた画像を生成できるようになります。
空間周波数およびピクセル領域で信号漏れの分布をモデル化し、初期潜在に信号漏れを含めることにより、追加のトレーニングを行わなくても、期待される結果によりよく一致する画像を生成します。
要約(オリジナル)
There is a bias in the inference pipeline of most diffusion models. This bias arises from a signal leak whose distribution deviates from the noise distribution, creating a discrepancy between training and inference processes. We demonstrate that this signal-leak bias is particularly significant when models are tuned to a specific style, causing sub-optimal style matching. Recent research tries to avoid the signal leakage during training. We instead show how we can exploit this signal-leak bias in existing diffusion models to allow more control over the generated images. This enables us to generate images with more varied brightness, and images that better match a desired style or color. By modeling the distribution of the signal leak in the spatial frequency and pixel domains, and including a signal leak in the initial latent, we generate images that better match expected results without any additional training.
arxiv情報
著者 | Martin Nicolas Everaert,Athanasios Fitsios,Marco Bocchio,Sami Arpa,Sabine Süsstrunk,Radhakrishna Achanta |
発行日 | 2023-09-27 17:59:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google