SnapGen: Taming High-Resolution Text-to-Image Models for Mobile Devices with Efficient Architectures and Training

要約

既存のテキストから画像への (T2I) 拡散モデルは、モデル サイズが大きい、実行時間が遅い、モバイル デバイスでの生成が低品質であるなど、いくつかの制限に直面しています。
このペーパーは、モバイル プラットフォーム上で高解像度かつ高品質の画像を生成する非常に小型で高速な T2I モデルを開発することで、これらすべての課題に対処することを目的としています。
この目標を達成するために、いくつかの手法を提案します。
まず、ネットワーク アーキテクチャの設計上の選択を体系的に検討し、高品質の生成を確保しながらモデル パラメーターと遅延を削減します。
次に、生成の品質をさらに向上させるために、モデルのトレーニングをゼロからガイドするマルチレベルのアプローチを使用して、はるかに大規模なモデルからクロスアーキテクチャの知識を抽出します。
第三に、敵対的ガイダンスと知識の蒸留を統合することにより、数ステップの生成を可能にします。
当社のモデル SnapGen は、モバイル デバイス上で約 1.4 秒で 1024×1024 ピクセルの画像を生成することを初めて実証しました。
ImageNet-1K では、パラメータが 3 億 7200 万個のみのモデルは、256×256 ピクセル生成で FID 2.06 を達成します。
T2I ベンチマーク (つまり、GenEval と DPG-Bench) では、わずか 3 億 7,900 万のパラメーターを備えたモデルは、大幅に小さいサイズ (たとえば、SDXL の 7 倍、IF-XL の 14 倍) で数十億のパラメーターを備えた大規模モデルを上回っています。

要約(オリジナル)

Existing text-to-image (T2I) diffusion models face several limitations, including large model sizes, slow runtime, and low-quality generation on mobile devices. This paper aims to address all of these challenges by developing an extremely small and fast T2I model that generates high-resolution and high-quality images on mobile platforms. We propose several techniques to achieve this goal. First, we systematically examine the design choices of the network architecture to reduce model parameters and latency, while ensuring high-quality generation. Second, to further improve generation quality, we employ cross-architecture knowledge distillation from a much larger model, using a multi-level approach to guide the training of our model from scratch. Third, we enable a few-step generation by integrating adversarial guidance with knowledge distillation. For the first time, our model SnapGen, demonstrates the generation of 1024×1024 px images on a mobile device around 1.4 seconds. On ImageNet-1K, our model, with only 372M parameters, achieves an FID of 2.06 for 256×256 px generation. On T2I benchmarks (i.e., GenEval and DPG-Bench), our model with merely 379M parameters, surpasses large-scale models with billions of parameters at a significantly smaller size (e.g., 7x smaller than SDXL, 14x smaller than IF-XL).

arxiv情報

著者 Dongting Hu,Jierun Chen,Xijie Huang,Huseyin Coskun,Arpit Sahni,Aarush Gupta,Anujraaj Goyal,Dishani Lahiri,Rajesh Singh,Yerlan Idelbayev,Junli Cao,Yanyu Li,Kwang-Ting Cheng,S. -H. Gary Chan,Mingming Gong,Sergey Tulyakov,Anil Kag,Yanwu Xu,Jian Ren
発行日 2024-12-12 18:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク