要約
本研究では、テキストから画像への変換のためのスケールワイズ変換器であるSwittiを紹介する。既存の次スケール予測ARモデルから出発して、まずT2I生成のためにそれらを探索し、収束性と全体的な性能を改善するためのアーキテクチャ上の修正を提案する。次に、事前学習されたスケールワイズARモデルの自己注目マップが、先行スケールへの依存性が弱いことを観察する。この洞察に基づき、我々は非AR対応モデルを提案する。このモデルはサンプリングを11%高速化し、メモリ使用量を削減する。さらに、高解像度スケールでの分類器を使わないガイダンスは、多くの場合不要であり、性能を低下させる可能性さえあることを明らかにする。これらのスケールでのガイダンスを無効にすることで、さらに〜20%のサンプリング高速化を達成し、きめの細かい詳細の生成を改善した。Swittiは既存のT2I ARモデルを凌駕し、最先端のT2I拡散モデルと競合しながら、最大7倍高速であることが、広範な人間嗜好研究と自動評価によって示されている。
要約(オリジナル)
This work presents Switti, a scale-wise transformer for text-to-image generation. Starting from existing next-scale prediction AR models, we first explore them for T2I generation and propose architectural modifications to improve their convergence and overall performance. We then observe that self-attention maps of our pretrained scale-wise AR model exhibit weak dependence on preceding scales. Based on this insight, we propose a non-AR counterpart facilitating ~11% faster sampling and lower memory usage while also achieving slightly better generation quality. Furthermore, we reveal that classifier-free guidance at high-resolution scales is often unnecessary and can even degrade performance. By disabling guidance at these scales, we achieve an additional sampling acceleration of ~20% and improve the generation of fine-grained details. Extensive human preference studies and automated evaluations show that Switti outperforms existing T2I AR models and competes with state-of-the-art T2I diffusion models while being up to 7 times faster.
arxiv情報
| 著者 | Anton Voronov,Denis Kuznedelev,Mikhail Khoroshikh,Valentin Khrulkov,Dmitry Baranchuk |
| 発行日 | 2024-12-03 18:44:06+00:00 |
| arxivサイト | arxiv_id(pdf) |