要約
テキストからイメージへの拡散モデルは、近年顕著な進歩を遂げています。
ただし、特にトレーニングデータと計算リソースが限られている場合、高解像度の画像生成のトレーニングモデルは依然として困難です。
この論文では、この実用的な問題を2つの重要な観点から調査し、データとパラメーターの効率性を調査し、\ emph {urae}と呼ばれる超解像度適応の重要なガイドラインのセットを提案します。
データ効率のために、一部の教師モデルによって生成された合成データがトレーニングの収束を大幅に促進できることを理論的および経験的に実証します。
パラメーター効率のために、合成データが利用できない場合、重量行列のマイナーコンポーネントが広く使用されている低ランクアダプターを上回り、効率を維持しながら大幅なパフォーマンスの向上を提供することがわかります。
さらに、フラックスなどのガイダンスの蒸留を活用するモデルの場合、分類器のないガイダンスを無効にする\ textit {i.e。}、適応中にガイダンススケールを1に設定することが、満足のいくパフォーマンスに重要であることを示します。
広範な実験では、URAEがFlux1.1 [Pro] Ultraのような最先端のクローズドソースモデルに匹敵する2K世代のパフォーマンスを達成することを検証し、4K解像度の生成のために新しいベンチマークを設定しながら、3Kサンプルと2K反復のみを備えています。
コードは\ href {https://github.com/huage001/ueae} {ここにあります}。
要約(オリジナル)
Text-to-image diffusion models have achieved remarkable progress in recent years. However, training models for high-resolution image generation remains challenging, particularly when training data and computational resources are limited. In this paper, we explore this practical problem from two key perspectives: data and parameter efficiency, and propose a set of key guidelines for ultra-resolution adaptation termed \emph{URAE}. For data efficiency, we theoretically and empirically demonstrate that synthetic data generated by some teacher models can significantly promote training convergence. For parameter efficiency, we find that tuning minor components of the weight matrices outperforms widely-used low-rank adapters when synthetic data are unavailable, offering substantial performance gains while maintaining efficiency. Additionally, for models leveraging guidance distillation, such as FLUX, we show that disabling classifier-free guidance, \textit{i.e.}, setting the guidance scale to 1 during adaptation, is crucial for satisfactory performance. Extensive experiments validate that URAE achieves comparable 2K-generation performance to state-of-the-art closed-source models like FLUX1.1 [Pro] Ultra with only 3K samples and 2K iterations, while setting new benchmarks for 4K-resolution generation. Codes are available \href{https://github.com/Huage001/URAE}{here}.
arxiv情報
著者 | Ruonan Yu,Songhua Liu,Zhenxiong Tan,Xinchao Wang |
発行日 | 2025-03-20 16:44:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google