要約
Classifier-Free Guide (CFG) は、テキストから画像への拡散モデルの品質と条件の遵守を強化します。
これは、固定の重みを使用して条件付き予測と無条件予測を組み合わせることで動作します。
しかし、最近の研究では、拡散プロセス全体を通じて重み付けを変更し、優れた結果を報告していますが、根拠や分析は提供していません。
このペーパーでは、包括的な実験を実施することにより、CFG 重み付けスケジューラーについての洞察を提供します。
私たちの調査結果は、シンプルで単調に増加する重みスケジューラーが、わずか 1 行のコードを必要とし、一貫してパフォーマンスの向上につながることを示唆しています。
さらに、より複雑なパラメータ化されたスケジューラは、さらなる改善のために最適化できますが、さまざまなモデルやタスクにわたって一般化することはできません。
要約(オリジナル)
Classifier-Free Guidance (CFG) enhances the quality and condition adherence of text-to-image diffusion models. It operates by combining the conditional and unconditional predictions using a fixed weight. However, recent works vary the weights throughout the diffusion process, reporting superior results but without providing any rationale or analysis. By conducting comprehensive experiments, this paper provides insights into CFG weight schedulers. Our findings suggest that simple, monotonically increasing weight schedulers consistently lead to improved performances, requiring merely a single line of code. In addition, more complex parametrized schedulers can be optimized for further improvement, but do not generalize across different models and tasks.
arxiv情報
著者 | Xi Wang,Nicolas Dufour,Nefeli Andreou,Marie-Paule Cani,Victoria Fernandez Abrevaya,David Picard,Vicky Kalogeiton |
発行日 | 2024-04-19 17:53:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google