Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis

要約

この作品では、テキストから画像を生成するためのスケールワイズ トランスフォーマーである Switti を紹介します。
既存の次スケールの予測 AR モデルから始めて、まず T2I 世代向けにモデルを調査し、その収束性と全体的なパフォーマンスを向上させるためのアーキテクチャの変更を提案します。
次に、スケールワイズ変換には因果関係は必要ないと主張し、わずかに優れた生成品質を達成しながら、最大 11% 高速なサンプリングとメモリ使用量の削減を促進する非因果変換を提案します。
さらに、高解像度スケールでの分類器を使用しないガイダンスは多くの場合不必要であり、パフォーマンスを低下させる可能性さえあることを明らかにします。
これらのスケールでガイダンスを無効にすることで、最大 20% の追加のサンプリング加速が達成され、きめの細かい詳細の生成が向上します。
広範な人間の好みの調査と自動評価により、Switti は既存の T2I AR モデルを上回り、最大 7 倍高速でありながら最先端の T2I 拡散モデルと競合できることが示されています。

要約(オリジナル)

This work presents Switti, a scale-wise transformer for text-to-image generation. Starting from existing next-scale prediction AR models, we first explore them for T2I generation and propose architectural modifications to improve their convergence and overall performance. We then argue that scale-wise transformers do not require causality and propose a non-causal counterpart facilitating ~11% faster sampling and lower memory usage while also achieving slightly better generation quality. Furthermore, we reveal that classifier-free guidance at high-resolution scales is often unnecessary and can even degrade performance. By disabling guidance at these scales, we achieve an additional sampling acceleration of ~20% and improve the generation of fine-grained details. Extensive human preference studies and automated evaluations show that Switti outperforms existing T2I AR models and competes with state-of-the-art T2I diffusion models while being up to 7 times faster.

arxiv情報

著者 Anton Voronov,Denis Kuznedelev,Mikhail Khoroshikh,Valentin Khrulkov,Dmitry Baranchuk
発行日 2024-12-05 18:58:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク