要約
テキストから画像へのモデルがますます強力かつ複雑になるにつれて、そのサイズの急増が、特にリソースに制約のあるデバイスでの広範な導入にとって大きな障害となっています。
この論文では、テキストから画像への領域におけるモデル圧縮の重要なニーズに対処する、Stable Diffusion 2 のトレーニング後の枝刈りに関する先駆的な研究を紹介します。
私たちの研究では、これまで未踏のマルチモーダル生成モデルの枝刈り技術に取り組み、特にテキスト コンポーネントと画像生成コンポーネントに対する枝刈りの影響を個別に調査しています。
さまざまなスパーシティにおけるモデルまたはモデルの単一コンポーネントの枝刈りに関して包括的な比較を実行します。
私たちの結果は、これまで文書化されていなかった発見をもたらしました。
たとえば、言語モデルの枝刈りにおける確立された傾向とは反対に、テキストから画像へのコンテキストでは、単純な大きさの枝刈りがより高度な手法よりも優れていることがわかりました。
さらに、私たちの結果は、Stable Diffusion 2 が品質損失を最小限に抑えながら 38.5% のスパース度までプルーニングでき、モデル サイズの大幅な縮小を達成できることを示しています。
テキスト エンコーダーを 47.5%、拡散ジェネレーターを 35% に削減する最適な削減構成を提案します。
この構成では、計算要件を大幅に削減しながら、画像生成の品質を維持します。
さらに、私たちの研究では、テキストから画像へのモデルにおける情報エンコードに関する興味深い疑問も明らかになりました。特定のしきい値を超える枝刈りは突然のパフォーマンスの低下 (画像が読めなくなる) につながることが観察されており、特定の重みが重要なセマンティクス情報をエンコードしていることが示唆されています。
この発見は、テキストから画像へのモデルにおけるモデル圧縮、相互運用性、バイアス識別に関する将来の研究に新たな道を開きます。
テキストから画像へのモデルの枝刈り動作に関する重要な洞察を提供することで、私たちの研究は、より効率的でアクセスしやすい AI 駆動の画像生成システムを開発するための基礎を築きます。
要約(オリジナル)
As text-to-image models grow increasingly powerful and complex, their burgeoning size presents a significant obstacle to widespread adoption, especially on resource-constrained devices. This paper presents a pioneering study on post-training pruning of Stable Diffusion 2, addressing the critical need for model compression in text-to-image domain. Our study tackles the pruning techniques for the previously unexplored multi-modal generation models, and particularly examines the pruning impact on the textual component and the image generation component separately. We conduct a comprehensive comparison on pruning the model or the single component of the model in various sparsities. Our results yield previously undocumented findings. For example, contrary to established trends in language model pruning, we discover that simple magnitude pruning outperforms more advanced techniques in text-to-image context. Furthermore, our results show that Stable Diffusion 2 can be pruned to 38.5% sparsity with minimal quality loss, achieving a significant reduction in model size. We propose an optimal pruning configuration that prunes the text encoder to 47.5% and the diffusion generator to 35%. This configuration maintains image generation quality while substantially reducing computational requirements. In addition, our work uncovers intriguing questions about information encoding in text-to-image models: we observe that pruning beyond certain thresholds leads to sudden performance drops (unreadable images), suggesting that specific weights encode critical semantics information. This finding opens new avenues for future research in model compression, interoperability, and bias identification in text-to-image models. By providing crucial insights into the pruning behavior of text-to-image models, our study lays the groundwork for developing more efficient and accessible AI-driven image generation systems
arxiv情報
著者 | Samarth N Ramesh,Zhixue Zhao |
発行日 | 2024-11-22 18:29:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google