Weak-to-Strong Diffusion with Reflection

要約

拡散生成モデルの目標は、グラデーションスコアマッチングを通じて、学習された分布を実際のデータ分布に合わせることです。
ただし、データの品質、モデリング戦略、および建築設計のトレーニングに固有の制限は、生成された出力と実際のデータの間に避けられないギャップにつながります。
このギャップを減らすために、既存の弱いモデルと強いモデル(つまり、弱い差まで)の推定差を利用して理想的なモデルと強力なモデルのギャップを埋めるための新しいフレームワークである、弱い拡散(W2SD)を提案します。
弱い違いと強さの違いを除いて、除去と反転を交互に交互に採用することにより、W2SDはサンプリング軌道に沿って実際のデータ分布の領域に沿って潜在変数を操作することを理論的に理解します。
W2SDは非常に柔軟で広く適用可能であり、弱いモデルペア(例えば、Dreamshaper vs. SD1.5、優秀な専門家対MOEの悪い専門家)の戦略的選択を通じて多様な改善を可能にします。
広範な実験は、W2SDが人間の好み、審美的な品質、迅速な順守を大幅に改善し、さまざまなモダリティ(例:画像、ビデオ)、アーキテクチャ(UNETベース、DITベース、MOEなど)、およびベンチマークでSOTAパフォーマンスを達成することを示しています。
たとえば、W2SDを使用したJuggernaut-XLは、元の結果よりも最大90%のHPSV2の勝利で改善できます。
さらに、W2SDによって達成されたパフォーマンスの向上は、追加の計算オーバーヘッドを著しく上回り、異なる弱い違いからの累積的な改善により、その実用的な有用性と展開性がさらに強化されます。

要約(オリジナル)

The goal of diffusion generative models is to align the learned distribution with the real data distribution through gradient score matching. However, inherent limitations in training data quality, modeling strategies, and architectural design lead to inevitable gap between generated outputs and real data. To reduce this gap, we propose Weak-to-Strong Diffusion (W2SD), a novel framework that utilizes the estimated difference between existing weak and strong models (i.e., weak-to-strong difference) to bridge the gap between an ideal model and a strong model. By employing a reflective operation that alternates between denoising and inversion with weak-to-strong difference, we theoretically understand that W2SD steers latent variables along sampling trajectories toward regions of the real data distribution. W2SD is highly flexible and broadly applicable, enabling diverse improvements through the strategic selection of weak-to-strong model pairs (e.g., DreamShaper vs. SD1.5, good experts vs. bad experts in MoE). Extensive experiments demonstrate that W2SD significantly improves human preference, aesthetic quality, and prompt adherence, achieving SOTA performance across various modalities (e.g., image, video), architectures (e.g., UNet-based, DiT-based, MoE), and benchmarks. For example, Juggernaut-XL with W2SD can improve with the HPSv2 winning rate up to 90% over the original results. Moreover, the performance gains achieved by W2SD markedly outweigh its additional computational overhead, while the cumulative improvements from different weak-to-strong difference further solidify its practical utility and deployability.

arxiv情報

著者 Lichen Bai,Masashi Sugiyama,Zeke Xie
発行日 2025-04-24 16:09:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク