SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two Seconds

要約

テキストから画像への拡散モデルは、自然言語の説明からプロのアーティストや写真家の作品に匹敵する見事な画像を作成できます。
ただし、これらのモデルは大規模で、複雑なネットワーク アーキテクチャと数十回のノイズ除去反復を伴うため、計算コストが高くつき、実行が遅くなります。
その結果、拡散モデルを大規模に実行するには、ハイエンド GPU とクラウドベースの推論が必要になります。
これにはコストがかかり、特にユーザーデータがサードパーティに送信される場合にはプライバシーに影響します。
これらの課題を克服するために、モバイル デバイス上で 2$ 秒未満でテキストから画像への拡散モデルを実行できるようにする一般的なアプローチを初めて紹介します。
私たちは、効率的なネットワーク アーキテクチャを導入し、段階的蒸留を改善することでこれを実現します。
具体的には、元のモデルの冗長性を特定し、データ蒸留によって画像デコーダの計算を削減することにより、効率的な UNet を提案します。
さらに、トレーニング戦略を探索し、分類子を使用しないガイダンスからの正則化を導入することで、ステップ蒸留を強化します。
MS-COCO に関する広範な実験により、$8$ のノイズ除去ステップを持つモデルの方が、$50$ ステップの $1.5$ の安定拡散よりも優れた FID および CLIP スコアを達成できることがわかりました。
私たちの取り組みは、強力なテキストから画像への拡散モデルをユーザーの手にもたらすことにより、コンテンツ作成を民主化します。

要約(オリジナル)

Text-to-image diffusion models can create stunning images from natural language descriptions that rival the work of professional artists and photographers. However, these models are large, with complex network architectures and tens of denoising iterations, making them computationally expensive and slow to run. As a result, high-end GPUs and cloud-based inference are required to run diffusion models at scale. This is costly and has privacy implications, especially when user data is sent to a third party. To overcome these challenges, we present a generic approach that, for the first time, unlocks running text-to-image diffusion models on mobile devices in less than $2$ seconds. We achieve so by introducing efficient network architecture and improving step distillation. Specifically, we propose an efficient UNet by identifying the redundancy of the original model and reducing the computation of the image decoder via data distillation. Further, we enhance the step distillation by exploring training strategies and introducing regularization from classifier-free guidance. Our extensive experiments on MS-COCO show that our model with $8$ denoising steps achieves better FID and CLIP scores than Stable Diffusion v$1.5$ with $50$ steps. Our work democratizes content creation by bringing powerful text-to-image diffusion models to the hands of users.

arxiv情報

著者 Yanyu Li,Huan Wang,Qing Jin,Ju Hu,Pavlo Chemerys,Yun Fu,Yanzhi Wang,Sergey Tulyakov,Jian Ren
発行日 2023-06-01 17:59:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク