UniFL: Improve Stable Diffusion via Unified Feedback Learning

要約

拡散モデルは画像生成の分野に革命をもたらし、高品質モデルと多様な下流アプリケーションの普及につながりました。
しかし、これらの大幅な進歩にも関わらず、現在の競合ソリューションには依然として、視覚的品質の低下、美的魅力の欠如、非効率な推論などのいくつかの制限があり、包括的なソリューションの見通しは立っていません。
これらの課題に対処するために、フィードバック学習を活用して普及モデルを包括的に強化する統合フレームワークである UniFL を紹介します。
UniFL は、SD1.5 や SDXL などのさまざまな普及モデルに適用できる、普遍的で効果的かつ一般化可能なソリューションとして際立っています。
特に、UniFL には 3 つの重要なコンポーネントが組み込まれています。視覚的な品質を向上させる知覚フィードバック学習です。
分離されたフィードバック学習により、美的魅力が向上します。
そして、推論速度を最適化する敵対的フィードバック学習。
綿密な実験と広範なユーザー調査により、生成されたモデルの品質とその高速化の両方を向上させる上で、私たちが提案する方法の優れたパフォーマンスが検証されています。
たとえば、UniFL は、生成品質の点でユーザーの好みで ImageReward を 17% 上回っており、4 ステップ推論では LCM と SDXL Turbo を 57% および 20% 上回っています。
さらに、Lora、ControlNet、AnimateDiff などの下流タスクにおけるアプローチの有効性を検証しました。

要約(オリジナル)

Diffusion models have revolutionized the field of image generation, leading to the proliferation of high-quality models and diverse downstream applications. However, despite these significant advancements, the current competitive solutions still suffer from several limitations, including inferior visual quality, a lack of aesthetic appeal, and inefficient inference, without a comprehensive solution in sight. To address these challenges, we present UniFL, a unified framework that leverages feedback learning to enhance diffusion models comprehensively. UniFL stands out as a universal, effective, and generalizable solution applicable to various diffusion models, such as SD1.5 and SDXL. Notably, UniFL incorporates three key components: perceptual feedback learning, which enhances visual quality; decoupled feedback learning, which improves aesthetic appeal; and adversarial feedback learning, which optimizes inference speed. In-depth experiments and extensive user studies validate the superior performance of our proposed method in enhancing both the quality of generated models and their acceleration. For instance, UniFL surpasses ImageReward by 17% user preference in terms of generation quality and outperforms LCM and SDXL Turbo by 57% and 20% in 4-step inference. Moreover, we have verified the efficacy of our approach in downstream tasks, including Lora, ControlNet, and AnimateDiff.

arxiv情報

著者 Jiacheng Zhang,Jie Wu,Yuxi Ren,Xin Xia,Huafeng Kuang,Pan Xie,Jiashi Li,Xuefeng Xiao,Weilin Huang,Min Zheng,Lean Fu,Guanbin Li
発行日 2024-04-08 15:14:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク